WO2019021401A1 - 強化学習装置、強化学習方法、および強化学習プログラム記録媒体 - Google Patents

強化学習装置、強化学習方法、および強化学習プログラム記録媒体 Download PDF

Info

Publication number
WO2019021401A1
WO2019021401A1 PCT/JP2017/027094 JP2017027094W WO2019021401A1 WO 2019021401 A1 WO2019021401 A1 WO 2019021401A1 JP 2017027094 W JP2017027094 W JP 2017027094W WO 2019021401 A1 WO2019021401 A1 WO 2019021401A1
Authority
WO
WIPO (PCT)
Prior art keywords
goal
subgoal
sub
rule
reinforcement learning
Prior art date
Application number
PCT/JP2017/027094
Other languages
English (en)
French (fr)
Inventor
貴士 大西
正明 土田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2019532275A priority Critical patent/JP6764143B2/ja
Priority to PCT/JP2017/027094 priority patent/WO2019021401A1/ja
Publication of WO2019021401A1 publication Critical patent/WO2019021401A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass

Definitions

  • the present invention relates to a reinforcement learning apparatus, a reinforcement learning method, and a reinforcement learning program recording medium.
  • Reinforcement Learning is a type of machine learning in which an agent in an environment observes the current state and deals with a problem in which an action to be taken is determined. Agents get rewards from the environment by selecting actions. Reinforcement learning learns a policy (policy) that can obtain the most reward through a series of actions.
  • Policy policy
  • Non-Patent Document 1 proposes “hierarchical reinforcement learning” consisting of two reinforcement learning agents of Meta-Controller and Controller. In a situation where there are multiple states between the starting point and the goal (Goal), it is assumed that it is desired to reach the goal with the shortest path from the starting point. Here, each state is also called a subgoal (Subgoal).
  • Meta-Controller presents, to Controller, a sub-goal to be achieved next among a plurality of sub-goals given in advance (however, "non-patent document 1" describes "goal”). doing.
  • Meta-Controller is also called a high level planner, and Controller is also called a low level planner. Therefore, in Non-Patent Document 1, the high level planner determines a specific subgoal out of a plurality of subgoals, and the Robel planner determines an actual action based on the specific subgoal.
  • the high level planner has a subgoal determination unit. Let ⁇ be a variable between 0 and 1 (0 ⁇ ⁇ ⁇ 1). The initial value of the variable ⁇ is 1. While the number of trials is small, the value of the variable ⁇ is close to one. Since the experience value accumulates as the number of trials increases, the value of the variable ⁇ gradually decreases to approach zero. In this situation, the subgoal determination unit randomly selects a specific subgoal with a probability of ⁇ from among the plurality of subgoals, and selects a specific subgoal empirically with a probability of (1 ⁇ ).
  • Patent Document 1 discloses a “learning control device” capable of realizing learning of an autonomous agent which can select its target task and expand its capability one after another.
  • the learning control device disclosed in Patent Document 1 includes a prediction unit, an evaluation unit, a control unit, and a planning unit.
  • the prediction unit performs prediction learning with the environment as a teacher.
  • the evaluation unit observes an error of prediction by the prediction unit, an error of calculation by the planning unit, and an error of control of the action by the control unit, and based on that, the achievement state on the sensor state space to be achieved by the autonomous agent Set and give the target achievement status (target status) to the planning department.
  • the planning unit plans (plans) an action sequence from the current state until reaching the target state given by the evaluation unit.
  • the control unit executes learning based on the plan by the planning unit and the environment, and controls the action of the autonomous agent.
  • the target state can be hierarchized as one action.
  • the prediction unit constantly learns the relationship between the action taken by itself and the change in the environment (change in sensor input), and the prediction accuracy of the prediction unit is improved by executing even the wrong plan.
  • the prediction unit can perform prediction learning without being cursed to a dimension by using the ability of the function approximator to withstand learning of large-scale samples and large-dimensional inputs.
  • the prediction unit can experience poor state space and improve prediction performance.
  • the heuristics search method of the planning unit even if the dimension of the input increases and the state space becomes large, the combination of searches explodes as compared with the case of using Q learning and dynamic programming. It is possible to suppress the In addition, it is possible to generalize the control unit by repeating learning of the success sequence.
  • Patent document 2 provides a method of improving the motion of a robot operated based on a set of predefined actions.
  • Patent Document 2 describes the following.
  • a composite action is generated by combining at least two actions in the set of original actions stored in the action library. Once a policy has been learned, including complex actions, many of those complex actions can not be used. One reason is that robot constraints such as joints motion limits and collisions may be violated, and the other reason is that the combined action offers no benefit in certain scenarios. Therefore, such meaningless composite actions are removed from the action library in order to keep the action library small for the reasons described above.
  • Non-Patent Document 1 It is assumed that the operation of a complex system is learned by hierarchical reinforcement learning as disclosed in Non-Patent Document 1. In this case, the number of sub goals is increased. In other words, the search space for searching for the subgoal becomes enormous. In order to learn, the subgoal determination unit needs to trial and error various subgoals. As a result, the hierarchical reinforcement learning method disclosed in Non-Patent Document 1 has a problem that the learning time becomes very long.
  • Patent Document 1 also only discloses hierarchical reinforcement learning. Further, Patent Document 1 does not disclose or suggest the starting point at all. Furthermore, in Patent Document 1, the goal (goal) is not set in advance, and the evaluation unit sets the target state based on the observation of the error described above, and the planning unit changes the current state to the target state. We are planning an action sequence to reach it. Therefore, Patent Document 1 does not disclose or suggest the concept of a plurality of subgoals from the start point to the goal.
  • Patent Document 2 merely describes removing meaningless composite actions from the action library.
  • An object of the present invention is to provide a reinforcement learning device, a reinforcement learning method, and a reinforcement learning program recording medium capable of solving the above-mentioned problems.
  • a high-level planner for determining a specific subgoal out of N (N is an integer of 3 or more) subgoals from a start point to a goal, and an actual action according to the specific subgoal
  • the high-level planner uses task knowledge to narrow down the N subgoals to M (M is an integer greater than or equal to 1 and smaller than N) subgoal candidates, and the M A subgoal determination unit that determines the specific subgoal preferentially from among the subgoal candidates, and the task knowledge is determined based on a task rule to be satisfied from the start point to the goal. It is.
  • the high level planner determines a specific subgoal from N (N is an integer of 3 or more) subgoals from the start point to the goal, and the low level planner determines the specific subgoal Determining an actual action according to a subgoal of the subgoal, wherein the subgoal determination unit of the high-level planner uses the task knowledge to make the N subgoals M (M is an integer of 1 or more and smaller than N).
  • the specific subgoals are preferentially determined from the M subgoal candidates by focusing on the subgoal candidates, and the task knowledge defines rules to be satisfied from the start point to the goal. This is a reinforcement learning method, which is knowledge determined based on task rules.
  • One form of the present invention is a high-level planner procedure for determining a specific subgoal out of N (N is an integer of 3 or more) subgoals from the start point to the goal, and the actual subgoal according to the specific subgoal
  • a reinforcement learning program recording medium recording a reinforcement learning program for causing a computer to execute a low level planner procedure for determining an action, wherein the high level planner procedure uses M of the N subgoals by using task knowledge.
  • M includes a subgoal determination procedure for determining the specific subgoal preferentially from the M subgoal candidates by narrowing down to one or more integer candidates smaller than N subgoal candidates
  • the task knowledge includes: Reinforcement learning program, which is knowledge determined based on task rules to be satisfied from the point to reaching the goal A gram recording medium.
  • the number of trials can be reduced to shorten the learning time.
  • FIG. 1 is a schematic configuration diagram of a target system to which a reinforcement learning device according to an embodiment of the present invention is applied. It is a block diagram which shows the hardware constitutions of the reinforcement learning apparatus which concerns on one Embodiment of this invention. It is a block diagram which shows one detailed example of a structure of a task knowledge and a subgoal determination part shown by FIG. It is a flowchart which shows the decision flow of the subgoal in the high level planner shown in FIG. It is a flowchart which shows the subgoal decision flow in a high level planner in case a knowledge task consists only of a priority rule. It is a flowchart which shows the subgoal decision flow in a high level planner in case a knowledge task consists only of a suppression rule.
  • FIG. 1 It is a block diagram which shows one structural example which produces a knowledge task from a task rule. It is a figure which shows the field of 13x13 square in which an item is arrange
  • FIG. 1 It is a block diagram which shows one structural example which produces a knowledge task from a task rule. It is a figure which shows the field of 13x13 square in which an item is arrange
  • FIG. 1 is a schematic configuration diagram of a target system to which a reinforcement learning device according to an embodiment of the present invention is applied.
  • the target system has a start point S and a goal (goal) G.
  • N N is an integer of 3 or more subgoals exist between the start point S and the goal G.
  • N N is an integer of 3 or more subgoals.
  • subgoal A is called a first subgoal
  • subgoal B is called a second subgoal
  • subgoal C is called a third subgoal.
  • task rules to be satisfied before the goal G is reached from the start point S are defined.
  • the goal G is reached at the shortest from the start point S via the first subgoal A, the second subgoal B, and the third subcall C. Shows an example where
  • the target system has a large number of subgoals, and as a result, the search space for searching the subgoals is enormous. Therefore, in the reinforcement learning device according to the present embodiment, as described later, the search range is narrowed by using task knowledge, and the learning efficiency is improved.
  • FIG. 2 is a block diagram showing a hardware configuration of the reinforcement learning device 100 according to an embodiment of the present invention.
  • the illustrated reinforcement learning device 100 can be realized by a computer that operates under program control.
  • the illustrated reinforcement learning apparatus 100 is an apparatus for searching for a subgoal in a target system as shown in FIG.
  • the reinforcement learning device 100 includes an input device 101 for inputting data, an output device 102 for outputting data, a storage device 104 for storing programs and data to be described later, and a data processing device 105 for processing data. .
  • the output device 102 includes a display device such as a liquid crystal display (LCD) or a plasma display panel (PDP) or a printer.
  • the output device 102 has a function of displaying various information such as an operation menu or the like and printing out the final result in accordance with an instruction from the data processing device 105.
  • the storage device 104 is composed of a memory such as a hard disk, a read only memory (ROM) and a random access memory (RAM).
  • the storage device 104 has a function of storing processing information (described later) necessary for various types of processing in the data processing apparatus 105 and the program 201.
  • the data processing device 105 includes a microprocessor such as a micro processing unit (MPU) and a central processing unit (CPU).
  • the data processing apparatus 105 has a function of reading various programs 201 from the storage apparatus 104 and realizing various processing units that process data according to the programs 201.
  • the main processing units realized by the data processing device 105 are composed of a high level planner 301 and a low bell planner 302.
  • the high level planner 301 determines a specific subgoal out of the N subgoals, as described later.
  • the low level planner 302 determines the actual action according to that particular subgoal.
  • the high level planner 301 sequentially instructs the low level planner 302 to the sub goals up to the target G as shown in FIG.
  • the low level planner 302 operates a simulator (not shown) to achieve the indicated subgoal.
  • the low level planner 302 feeds back the result of the goal achievement to the high level planner 301.
  • the storage device 104 stores task knowledge 202 in advance, as will be described later.
  • the task knowledge 202 is knowledge determined as described later based on the task rule.
  • the high level planner 301 includes a sub goal determination unit 303.
  • the subgoal determination unit 303 uses the task knowledge 202 to narrow the above N subgoals to M (M is an integer greater than or equal to 1 and smaller than N) subgoal candidates, and gives priority to M subgoal candidates. Determine the above specific subgoal.
  • FIG. 3 is a block diagram showing an example of a detailed configuration of the task knowledge 202 and the sub goal determination unit 303. As shown in FIG.
  • the illustrated task knowledge 202 includes priority rules 204 and suppression rules 206.
  • the priority rule 204 is a rule that gives priority to a subgoal contributing to the goal G, which is obtained based on the task rule.
  • the suppression rule 206 is a rule for suppressing a subgoal which does not contribute to the goal G, which is obtained based on the task rule.
  • Sub goal determination unit 303 includes a priority selection unit 305 and a sub goal check unit 307.
  • the priority selection unit 305 preferentially extracts and selects M subgoal candidates from the N subgoals in accordance with the priority rule 204.
  • the priority selection unit 305 includes a subgoal candidate extraction unit 311 and a subgoal selection unit 313.
  • the sub goal candidate extraction unit 311 extracts M sub goal candidates from the N sub goals in accordance with the priority rule 204.
  • the sub goal selection unit 313 preferentially selects one sub goal from the M sub goal candidates, and outputs the selected sub goal.
  • the sub goal check unit 307 determines, based on the suppression rule 206, whether the selected sub goal is OK or NG as the specific sub goal. If OK, the sub goal check unit 307 outputs the selected sub goal as a specific sub goal. It is assumed that the sub goal check unit 307 determines that it is NG. In this case, the sub goal selection unit 313 performs sub goal selection again with a predetermined probability p. Also, with the probability (1-p), the sub goal check unit 307 outputs the sub goal determined as NG as it is as a specific sub goal.
  • is a variable between 0 and 1 (0 ⁇ ⁇ ⁇ 1). While the number of trials is small, the value of the variable ⁇ is close to one. As the experience value is accumulated as the number of trials increases, the value of the variable ⁇ gradually decreases so as to approach zero. In this situation, the sub-goal determination unit 303 according to the present embodiment selects and determines a specific sub-goal, as described later, using the task knowledge 202 with the probability of ⁇ . On the other hand, as in the prior art, the sub-goal determination unit 303 empirically selects a specific sub-goal with a probability of (1- ⁇ ) (step S101), and determines a specific sub-goal (step S102).
  • the sub goal candidate extraction unit 311 extracts M sub goal candidates from N sub goals in accordance with the priority rule 204 (step S103).
  • the sub goal selection unit 313 selects one sub goal from the extracted M sub goal candidates, and outputs the selected sub goal (step S104).
  • the sub goal check unit 307 determines, based on the suppression rule 206, whether the selected sub goal is OK or NG as a specific sub goal (Step S105). If OK, the sub goal check unit 307 determines the selected sub goal as a specific sub goal (step S102). On the other hand, if the subgoal check unit 307 determines that it is NG, the process returns to step S104 with a predetermined probability p, and the subgoal selection unit 313 reselects one subgoal out of the M subgoal candidates extracted. Also, with the probability (1-p), the sub goal check unit 307 outputs the sub goal determined as NG as it is as a specific sub goal.
  • the task knowledge 202 includes the priority rule 204 and the suppression rule 206, but is not limited thereto.
  • task knowledge 202 may consist only of priority rules 204 or may consist of only suppression rules 206.
  • FIG. 5 is a flowchart showing the subgoal decision flow in the high level planner 301 when the knowledge task 202 consists only of the priority rules 204. As apparent from FIG. 5, steps S105 to S105 are omitted.
  • FIG. 6 is a flowchart showing the subgoal decision flow in the high level planner 301 when the knowledge task 202 consists only of the suppression rules 206. As apparent from FIG. 6, steps S103 to S103 are omitted. In this case, the sub goal selection unit 313 randomly selects one sub goal from the N sub goals (step S104).
  • the priority rule 204 and the suppression rule 206 may be manually created.
  • the inference unit 320 may be used to dynamically create the priority rule 204 and the suppression rule 206 from the task rule 210.
  • the embodiment of the present invention it is possible to reduce the learning time by reducing the number of trials.
  • the reason is that the task knowledge is used to narrow the search range (subgoal candidates to be selected) to speed up learning.
  • Each part of the reinforcement learning device 100 may be realized using a combination of hardware and software.
  • a reinforcement learning program is developed in a random access memory (RAM), and hardware such as a control unit (CPU (central processing unit)) is operated based on the reinforcement learning program. Implements each unit as various means.
  • the reinforcement learning program may be recorded in a recording medium and distributed.
  • the reinforcement learning program recorded in the recording medium is read into a memory via a wired, wireless, or recording medium itself, and operates a control unit and the like.
  • examples of the recording medium include an optical disk, a magnetic disk, a semiconductor memory device, a hard disk and the like.
  • the computer causing the computer to operate as the reinforcement learning device 100 can be selected as the priority selection unit 305 (subgoal candidate extraction unit 311, subgoal selection unit 313). , And can be realized by operating as the sub goal check unit 307.
  • the target system according to the first embodiment is a craft game imitating Minecraft. That is, the task of collecting / crafting materials in the field and crafting the target items.
  • the mission definition in the first embodiment will be described below.
  • the goal is to collect the material and make rabbit_stew. However, if you don't collect the materials in the proper order, you will get something different (eg stick, mushroom_stew) and it will fail.
  • FIG. 8 As shown in FIG. 8, various items are arranged in the field of 13 ⁇ 13 grid.
  • FIG. 9 shows an example of the item arrangement. Therefore, there are eight materials (subgoals) determined. Always start the mission from the same initial state (start).
  • FIG. 10 is a view showing a Craft rule which is a task rule 210 of a toy task in the present example.
  • the toy task in this example is at least 39 hands.
  • the task knowledge 202 is manually created.
  • the priority rule 204 in this example is a rule-based location of the material that is the premise of the target item.
  • the suppression rule 206 is a rule-based position of material that is a premise of a failure item.
  • FIG. 11 shows an example of the priority rule 204.
  • FIG. 12 shows an example of the suppression rule 206.
  • FIG. 11 shows an example of the priority rule 204.
  • FIG. 12 shows an example of the suppression rule 206.
  • FIG. 11 shows an example of the priority rule 204.
  • FIG. 12 shows an example of the suppression rule 206.
  • FIG. 13 is a diagram showing a comparison result (experimental result) of the reinforcement learning device 100 in the present embodiment and hierarchical reinforcement learning (prior art) disclosed in Non-Patent Document 1.
  • the horizontal axis indicates the number of trials, and the vertical axis indicates the task success rate.
  • a one-dot broken line indicates an experimental result of the prior art
  • a two-dot broken line indicates an experimental result using only the suppression rule 206 as the task knowledge 202
  • a dashed line indicates only the priority rule 204 as the task knowledge 202.
  • a solid line indicates an experimental result in which the priority rule 204 and the suppression rule 206 are used in combination as the task knowledge 202.
  • the learning speed of the reinforcement learning device 100 according to the present embodiment in which the priority rule 204 and the suppression rule 206 are used together as the task knowledge 202 is approximately 5 compared to the learning speed of the prior art. It can be seen that the speed is doubled. Further, even when only the priority rule 204 is used as the task knowledge 202, it is understood that the learning speed of the reinforcement learning device 100 according to the present embodiment is faster than the learning speed of the prior art.
  • the priority rule 204 and the suppression rule 206 are created manually.
  • the priority rule 204 and the suppression rule 206 are dynamically created using the inference unit 320.
  • FIG. 14 is a diagram showing “background knowledge” and “destination state” required to derive the priority rule 204 using the inference unit 320. As predicates, an action predicate (goto) and a state predicate (have) are defined. In FIG. 14, the Pickup rule of “background knowledge” expresses the item arrangement shown in FIG. 9.
  • the inferr 320 applies the backward inference under the “background knowledge” and the “target state” shown in FIG. 14 and sets the derived operation predicate as the priority rule 204.
  • FIG. 15 is a diagram showing an example of the priority rule 204 derived as such.
  • the inferr 320 defines the “non-target state” shown in FIG. In FIG. 16, since the condition at the branched point is AND, when all the conditions are satisfied, it becomes an unintended state.
  • FIG. 17 is a diagram showing an example of the suppression rule 206 derived as such.
  • FIG. 17 shows three suppression rules.
  • the first suppression rule has red_mushroom and brown_mushroom, and indicates that it is the suppression rule to go to SW when you do not have bowl. The same is true for the following two suppression rules.
  • the inference unit 320 can dynamically create the priority rule 204 and the suppression rule 206 from the task rule 210.
  • a high-level planner for determining a specific subgoal from N (N is an integer of 3 or more) subgoals from the start point to the goal, and a row for determining an actual action according to the specific subgoal
  • the high-level planner uses task knowledge to narrow down the N subgoals to M (M is an integer greater than or equal to 1 and smaller than N) subgoal candidates to obtain the M subgoals.
  • a subgoal determination unit that determines the specific subgoal preferentially from among the candidates, and the task knowledge is knowledge determined based on a task rule to be satisfied from the start point to the goal. Reinforcement learning device.
  • the task knowledge includes a priority rule which gives priority to a subgoal contributing to the achievement of the goal, which is obtained based on the task rule, and the subgoal determination unit determines the N subgoals in accordance with the priority rule.
  • the reinforcement learning device comprising a priority selection unit which preferentially extracts and selects the M subgoal candidates from the above.
  • the priority selection unit is a subgoal candidate extraction unit that extracts the M subgoal candidates from the N subgoals according to the priority rule; and one of the M subgoal candidates with priority.
  • the reinforcement learning device comprising: a subgoal selection unit which selects a subgoal and outputs the selected subgoal.
  • the task knowledge further includes a suppression rule for suppressing a subgoal not contributing to the achievement of the goal, which is obtained based on the task rule, and the subgoal determination unit determines the subgoal based on the suppression rule.
  • the reinforcement learning device according to Appendix 3, further comprising a subgoal check unit that determines whether the selected subgoal is OK or NG as the specific subgoal.
  • the sub-goal selecting unit reselects the one sub-goal out of the M sub-goal candidates with a predetermined probability when the sub-goal checking unit determines that it is NG. Reinforcement learning device as described.
  • the high level planner determines a specific subgoal from N (N is an integer of 3 or more) subgoals from the start point to the goal, and the low level planner follows the specific subgoal.
  • a reinforcement learning method for determining an actual action wherein the subgoal determination unit of the high level planner uses the task knowledge to make the N subgoals M (M is an integer of 1 or more and smaller than N) subgoals Focusing on candidates, the specific subgoal is preferentially determined from the M subgoal candidates, and the task knowledge defines a rule to be satisfied from the start point to the goal.
  • Reinforcement learning method which is knowledge determined based on rules.
  • the task knowledge includes a priority rule which gives priority to a subgoal contributing to the achievement of the goal, which is obtained based on the task rule, and the priority selection unit of the subgoal determination unit follows the priority rule.
  • the subgoal candidate extraction unit of the priority selection unit extracts the M subgoal candidates from the N subgoals according to the priority rule, and the subgoal selection unit of the priority selection unit includes the M The reinforcement learning method according to appendix 7, wherein one subgoal is preferentially selected from among the subgoal candidates, and the selected subgoal is output.
  • the task knowledge further includes a suppression rule for suppressing a subgoal not contributing to achievement of the goal, which is obtained based on the task rule, and the subgoal check unit of the subgoal determination unit is the suppression rule
  • the reinforcement learning method according to appendix 8 wherein it is determined whether the selected subgoal is OK or NG as the specific subgoal based on.
  • the sub-goal selecting unit reselects the one sub-goal out of the M sub-goal candidates with a predetermined probability when the sub-goal checking unit determines that the result is NG. Reinforcement learning method described.
  • a high-level planner procedure for determining a specific subgoal from N (N is an integer of 3 or more) subgoals from the start point to the goal, and the actual action according to the specific subgoal
  • N is an integer of 3 or more
  • the high level planner procedure uses M of the N subgoals M (M is N) using task knowledge.
  • a subgoal determination procedure for determining the specific subgoal preferentially from the M subgoal candidates by focusing on smaller one or more integer subgoal candidates, and the task knowledge includes: Reinforcement learning program, which is knowledge determined based on task rules to be met before reaching a goal Recording medium.
  • the task knowledge includes a priority rule which gives priority to a subgoal contributing to the achievement of the goal, which is obtained based on the task rule, and the subgoal determination procedure includes the N subgoals in accordance with the priority rule.
  • the priority selection procedure is a subgoal candidate extraction procedure for extracting the M subgoal candidates from the N subgoals according to the priority rule, and one of the M subgoal candidates with priority.
  • the task knowledge further includes a suppression rule for suppressing a subgoal not contributing to the goal, which is obtained based on the task rule, and the subgoal determination procedure is based on the suppression rule.
  • the sub-goal selecting procedure reselects the one sub-goal out of the M sub-goal candidates with a predetermined probability when it is determined as NG in the sub-goal checking procedure. Reinforcement learning program recording medium as described.
  • the reinforcement learning device is applicable to applications such as a plant operation support system and an infrastructure operation support system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

強化学習装置は、開始点からゴールに到達するまでのN(Nは3以上の整数)個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナと、前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナと、を含む。ハイレベルプランナは、タスク知識を用いて、N個のサブゴールをM(MはNより小さい1以上の整数)個のサブゴール候補に絞って、前記M個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定部を含む。タスク知識は、開始点からゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である。

Description

強化学習装置、強化学習方法、および強化学習プログラム記録媒体
本発明は、強化学習装置、強化学習方法、および強化学習プログラム記録媒体に関する。
強化学習(Reinforcement Learning)とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種である。エージェントは行動を選択することで環境から報酬を得る。強化学習は、一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。
このような強化学習の一つとして、非特許文献1は、Meta-ControllerとControllerとの2つの強化学習エージェントからなる「階層強化学習」を提案している。開始点から目標(Goal)までの間に複数の状態がある状況において、開始点から最短経路で目標まで到達したい場合を想定する。ここで、各状態はサブゴール(Subgoal)とも呼ばれる。非特許文献1においては、Meta-Controllerは、あらかじめ与えられた複数のサブゴール(但し、非特許文献1では、”goal”と記している)の中から、次に達成すべきサブゴールをControllerへ提示している。
Meta-Controllerはハイレベルプランナとも呼ばれ、Controllerはローレベルプランナとも呼ばれる。したがって、非特許文献1では、ハイレベルプランナが複数のサブゴールの中から特定のサブゴールを決定し、ローベルプランナが特定のサブゴールに基づいて実際のアクションを決めている。ハイレベルプランナは、サブゴール決定部を備えている。εを0から1の間の変数とする(0≦ε≦1)。変数εの初期値は1である。試行回数が少ない間は、変数εの値は1に近い。試行回数が増えていくにつれて経験値が蓄積していくので、変数εの値は0に近づくように徐々に減少する。この状況において、サブゴール決定部は、複数のサブゴールの中からεの確率でランダムに特定のサブゴールを選択し、(1-ε)の確率で経験的に特定のサブゴールを選択する。
また、特許文献1は、対象とするタスクを自らが選択して、次々と能力を伸長させていくことができる自律エージェントの学習を実現することができる、「学習制御装置」を開示している。特許文献1に開示された学習制御装置は、予測部と、評価部と、制御部と、計画部とを備える。予測部は、環境を教師とした予測学習を行う。評価部は、予測部による予測のエラー、計画部による計算のエラー、制御部による行動の制御のエラーを観測し、それをもとに、自律エージェントが達成するべきセンサ状態空間上の達成状態を設定し、目標とする達成状態(目標状態)を計画部に与える。計画部は、現在の状態から、評価部により与えられた目標状態に達するまでの行動シーケンスをプラン(計画)する。制御部は、計画部による計画と環境とを教師とした学習を実行し、自律エージェントのアクションを制御する。予測部と制御部の学習が十分に進むと、目標状態を一つのアクションとして階層化することができる。
予測部は、自分自身の取ったアクションと環境の変化(センサ入力の変化)の関係を常に学習しており、誤った計画でも実行されることによって予測部の予測精度が改善されていく。予測部は、大規模サンプルや、大次元入力の学習に耐える関数近似器の能力を利用することにより、次元に呪われることなく、予測学習を行うことができる。また、未熟な予測部で生成したプランにより、誤ったプランが実行されることでも、予測部は不得手な状態空間を経験し、予測性能を向上させることができる。計画部がヒューリスティクス探索の手法を用いることにより、入力の次元が増えて状態空間が大きくなっても、Q学習や動的計画法を用いた場合と比較して、探索の組み合わせが爆発してしまうことを抑制することができる。また、成功シーケンスの学習が繰り返されることにより、制御部を汎化することが可能である。
特許文献2は、予め定義されたアクションのセットに基づいて作動されるロボットの動作の改善方法を提供している。特許文献2は、次のことを記載している。アクションライブラリに保存されているオリジナルアクションの集合の中の少なくとも2つのアクションを組み合わせることにより、複合アクションが生成される。複合アクションを含めてポリシーが学習された後では、それらの複合アクションの多くは使用することができない。一つの理由は、関節動作制限(joints limits)や衝突などのロボットの制約に違反し得るためであり、他の理由は、複合アクションが特定のシナリオにおいては何らの利益ももたらさいためである。したがって、上述の理由からアクションライブラリを小さく維持すべく、そのような無意味な複合アクションがアクションライブラリから除去される。
特開2006-268812号公報 特開2016-196079号公報
Tejas D. Kulkarni, et al. "Hierarchical Deep Reinforcement Learning: Integrating Tmporal Abstraction and Intrinsic Motivation." 30th Conference on Nural Information Processing Systems (NIPS 2016), Barcelona, Spein.
複雑なシステムのオペレーションを、非特許文献1に開示されているような、階層強化学習によって学習させるとする。この場合、サブゴールの数が多くなる。換言すれば、サブゴールを探索するための探索空間が膨大となる。学習のために、サブゴール決定部は、様々なサブゴールを試行錯誤する必要がある。その結果、非特許文献1に開示された階層強化学習方法では、学習時間が非常に長くなってしまうという課題がある。
特許文献1も、階層強化学習を開示しているに過ぎない。また、特許文献1では、開始点について何ら開示も示唆もしていない。さらに、特許文献1においては、目標(ゴール)が予め設定されてはおらず、評価部が、上述したエラーの観測に基づいて目標状態を設定して、計画部が、現在の状態から目標状態に達するまでの行動シーケンスを計画している。よって、特許文献1においては、開始点からゴールに到達するまでの複数のサブゴールという概念について、何ら開示も示唆もしていない。
特許文献2は、単に、無意味な複合アクションがアクションライブラリから除去することを記載しているに過ぎない。
本発明の目的は、上述した課題を解決できる強化学習装置、強化学習方法、および強化学習プログラム記録媒体を提供することにある。
本発明の一形態は、開始点からゴールに到達するまでのN(Nは3以上の整数)個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナと、前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナと、を備え、前記ハイレベルプランナは、タスク知識を用いて、前記N個のサブゴールをM(MはNより小さい1以上の整数)個のサブゴール候補に絞って、前記M個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定部を備え、前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である、である。
本発明の一形態は、ハイレベルプランナが、開始点からゴールに到達するまでのN(Nは3以上の整数)個のサブゴールの中から特定のサブゴールを決定し、ローレベルプランナが、前記特定のサブゴールに従って実際のアクションを決める、強化学習方法であって、前記ハイレベルプランナのサブゴール決定部が、タスク知識を用いて、前記N個のサブゴールをM(MはNより小さい1以上の整数)個のサブゴール候補に絞って、前記M個のサブゴール候補の中から優先的に前記特定のサブゴールを決定し、前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべき規則を規定しているタスクルールに基づいて決定された知識である、強化学習方法である。
本発明の一形態は、開始点からゴールに到達するまでのN(Nは3以上の整数)個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナ手順と、前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナ手順と、をコンピュータに実行させる強化学習プログラムを記録した強化学習プログラム記録媒体であって、前記ハイレベルプランナ手順は、タスク知識を用いて、前記N個のサブゴールをM(MはNより小さい1以上の整数)個のサブゴール候補に絞って、前記M個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定手順を備え、前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である、強化学習プログラム記録媒体である。
本発明によれば、試行回数を減らして学習時間を短縮することできる。
本発明の実施形態に係る強化学習装置が適用される、対象システムの概略構成図である。 本発明の一実施形態に係る強化学習装置のハードウェア構成を示すブロック図である。 図2に示された、タスク知識とサブゴール決定部との詳細な一構成例を示すブロック図である。 図2に示したハイレベルプランナにおけるサブゴールの決定フローを示す流れ図である。 知識タスクが優先ルールのみから成る場合における、ハイレベルプランナにおけるサブゴール決定フローを示す流れ図である。 知識タスクが抑制ルールのみから成る場合における、ハイレベルプランナにおけるサブゴール決定フローを示す流れ図である。 タスクルールから知識タスクを作成する一構成例を示すブロック図である。 アイテムが配置される、13×13升目のフィールドを示す図である。 図8に示すフィールドでのアイテム配置の一例を示す図である。 第1の実施例におけるタスクルールである、Craftルールを示す図である。 優先ルールの一例を示す図である。 抑制ルールの一例を示す図である。 本実施形態における強化学習装置と、非特許文献1に開示されている階層強化学習(先行技術)との比較結果(実験結果)を示す図である。 優先ルールを推論器を用いて導出するために必要な「背景知識」と「目的状態」とを示す図である。 推論器によって導出された優先ルールの一例を示す図である。 推論器において定義される「非目的状態」の一例を示す図である。 推論器によって導出された抑制ルールの一例を示す図である。
図1は、本発明の実施形態に係る強化学習装置が適用される、対象システムの概略構成図である。
対象システムは、開始点Sと、目標(ゴール)Gとを有する。対象システムには、開始点SからゴールGまでの間にN(Nは3以上の整数)個のサブゴールが存在する。図1に示す例では、N個のサブゴールとして、A、B、およびCで示される3つのサブゴールを代表的に図示している。ここでは、サブゴールAを第1のサブゴールと呼び、サブゴールBを第2のサブゴールと呼び、サブゴールCを第3のサブゴールと呼ぶことにする。
対象システムには、開始点SからゴールGに到達するまでに満たすべきタスクルールが規定されている。図1に示す対象システムの場合、そのタスクルールに従って、開始点Sから、第1のサブゴールA、第2のサブゴールB、および第3のサブコールCを経由して、ゴールGに最短で到達することができる例を示している。
しかしながら、一般的には、対象システムはサブゴールの数が多く、その結果、サブゴールを探索するための探索空間が膨大となる。そこで、本実施形態に係る強化学習装置では、後述するように、タスク知識を利用して探索範囲を絞り、学習の効率化を図っている。
[実施の形態]
図2は、本発明の一実施形態に係る強化学習装置100のハードウェア構成を示すブロック図である。図示の強化学習装置100は、プログラム制御により動作するコンピュータで実現可能である。
図示の強化学習装置100は、図1に示されるような対象システムにおいて、サブゴールを探索する装置である。
強化学習装置100は、データを入力する入力装置101と、データを出力する出力装置102と、後述するプログラムやデータを記憶する記憶装置104と、データを処理するデータ処理装置105とを備えている。
出力装置102は、LCD(Liquid Crystal Display)やPDP(Plasma Display Panel)などの表示装置やプリンタからなる。出力装置102は、データ処理装置105からの指示に応じて、操作メニューなどの各種情報を表示したり、最終結果を印字出力する機能を有する。
記憶装置104は、ハードディスクやリードオンリメモリ(ROM)およびランダムアクセスメモリ(RAM)などのメモリからなる。記憶装置104は、データ処理装置105における各種処理に必要な処理情報(後述する)やプログラム201を記憶する機能を有する。
データ処理装置105は、MPU(micro processing unit)などのマイクロプロセッサや中央処理装置(CPU)からなる。データ処理装置105は、記憶装置104からプログラム201を読み込んで、プログラム201に従ってデータを処理する各種処理部を実現する機能を有する。
データ処理装置105で実現される主な処理部は、ハイレベルプランナ301およびローベルプランナ302からなる。
ハイレベルプランナ301は、後述するように、上記N個のサブゴールの中から特定のサブゴールを決定する。ローレベルプランナ302は、その特定のサブゴールに従って実際のアクションを決める。
すなわち、ハイレベルプランナ301は、図1に示されるような、目標Gまでのサブゴールを順次、ローレベルプランナ302に指示する。ローレベルプランナ302は、その指示されたサブゴールを達成するようにシミュレータ(図示せず)を操作する。ローレベルプランナ302は、目標達成の結果をハイレベルプランナ301にフィードバックする。
詳述すると、記憶装置104は、後述するような、タスク知識202を予め格納している。タスク知識202は、上記タスクルールに基づいて、後述するように決定された知識である。
ハイレベルプランナ301は、サブゴール決定部303を備える。サブゴール決定部303は、タスク知識202を用いて、上記N個のサブゴールをM(MはNより小さい1以上の整数)個のサブゴール候補に絞って、M個のサブゴール候補の中から優先的に上記特定のサブゴールを決定する。
図3は、タスク知識202とサブゴール決定部303との詳細な一構成例を示すブロック図である。
図示のタスク知識202は、優先ルール204と、抑制ルール206と含む。優先ルール204は、上記タスクルールに基づいて求められた、ゴールGの到達に資するサブゴールを優先するルールである。一方、抑制ルール206は、上記タスクルールに基づいて求められた、ゴールGの到達に資さないサブゴールを抑制するルールである。
サブゴール決定部303は、優先選択部305と、サブゴールチェック部307とを含む。優先選択部305は、優先ルール204に従って、N個のサブゴールの中からM個のサブゴール候補を優先的に抽出して選択する。
詳述すると、優先選択部305は、サブゴール候補抽出部311と、サブゴール選択部313とから成る。サブゴール候補抽出部311は、優先ルール204に従って、N個のサブゴールからM個のサブゴール候補を抽出する。サブゴール選択部313は、M個のサブゴール候補の中から優先的に1つのサブゴールを選択して、選択したサブゴールを出力する。
サブゴールチェック部307は、抑制ルール206に基づいて、上記選択したサブゴールが、上記特定のサブゴールとしてOKかNGかを判定する。OKの場合、サブゴールチェック部307は、選択したサブゴールを、特定のサブゴールとして出力する。サブゴールチェック部307でNGと判定されたとする。この場合、所定の確率pで、サブゴール選択部313は、サブゴール選択をやり直す。また、確率(1-p)で、サブゴールチェック部307は、NGとされたサブゴールをそのまま特定のサブゴールとして出力する。
[動作の説明]
次に、図4のフローチャートを参照して、ハイレベルプランナ301におけるサブゴールを決定する動作(すなわち、サブゴール決定部303の動作)について詳細に説明する。
ここで、上述したのと同様に、εを0から1の間の変数とする(0≦ε≦1)。試行回数が少ない間は、変数εの値は1に近い。試行回数が増えていくにつれて経験値が蓄積されていくので、変数εの値は0に近づくように徐々に減少する。この状況において、本実施形態に係るサブゴール決定部303は、εの確率で上記タスク知識202を用いて、後述するように、特定のサブゴールを選択し、決定する。一方、先行技術の場合と同様に、サブゴール決定部303は、(1-ε)の確率で経験的に特定のサブゴールを選択し(ステップS101)、特定のサブゴールを決定する(ステップS102)。
次に、εの確率でタスク知識202を用いて、特定のサブゴールを選択し、決定する場合の動作について説明する。
まず、サブゴール候補抽出部311は、優先ルール204に従って、N個のサブゴールからM個のサブゴール候補を抽出する(ステップS103)。次に、サブゴール選択部313は、抽出したM個のサブゴール候補の中から1つのサブゴールを選択し、選択したサブゴールを出力する(ステップS104)。
次に、サブゴールチェック部307は、抑制ルール206に基づいて、選択したサブゴールが特定のサブゴールとしてOKかNGかを判定する(ステップS105)。OKの場合、サブゴールチェック部307は、選択したサブゴールを特定のサブゴールとして決定する(ステップS102)。一方、サブゴールチェック部307でNGと判定された場合、所定の確率pでステップS104に戻って、サブゴール選択部313は、抽出したM個のサブゴール候補の中から1つのサブゴールを選択し直す。また、確率(1-p)で、サブゴールチェック部307は、NGとされたサブゴールをそのまま特定のサブゴールとして出力する。
上記実施形態では、タスク知識202は、優先ルール204と抑制ルール206とを備えているが、それに限定されない。例えば、タスク知識202は、優先ルール204のみから成ってもよく、或いは、抑制ルール206のみから成ってもよい。
図5は、知識タスク202が優先ルール204のみから成る場合における、ハイレベルプランナ301におけるサブゴール決定フローを示す流れ図である。図5から明らかなように、図4からステップS105が省略されている。
図6は、知識タスク202が抑制ルール206のみから成る場合における、ハイレベルプランナ301におけるサブゴール決定フローを示す流れ図である。図6から明らかなように、図4からステップS103が省略されている。この場合、サブゴール選択部313は、N個のサブゴールの中からランダムに1つのサブゴールを選択することになる(ステップS104)。
尚、優先ルール204や抑制ルール206は、人手で作成されてよい。或いは、図7に示されるように、推論器320を用いて、タスクルール210から動的に優先ルール204および抑制ルール206を動的に作成してもよい。
[効果の説明] 
次に、本実施の形態の効果について説明する。
本発明の実施の形態によれば、試行回数を減らして、学習時間を短縮することができる。その理由は、タスク知識を用いて、探索範囲(選択すべきサブゴール候補)を絞り、学習を高速化しているからである。
尚、強化学習装置100の各部は、ハードウェアとソフトウェアとの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、RAM(random access memory)に強化学習プログラムが展開され、該強化学習プログラムに基づいて制御部(CPU(central processing unit))等のハードウェアを動作させることによって、各部を各種手段として実現する。また、該強化学習プログラムは、記録媒体に記録されて頒布されても良い。当該記録媒体に記録された強化学習プログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。
上記実施の形態を別の表現で説明すれば、強化学習装置100として動作させるコンピュータを、RAMに展開された強化学習プログラムに基づき、優先選択部305(サブゴール候補抽出部311、サブゴール選択部313)、およびサブゴールチェック部307として動作させることで実現することが可能である。
次に、本発明の実施形態に係る強化学習装置100を、具体的な対象システムに適用した場合の第1の実施例について説明する。第1の実施例に係る対象システムは、Minecraftを模したクラフトゲームである。すなわち、フィールドにある材料を収集/クラフトし、目標となるアイテムをクラフトするタスクである。
以下に、本第1の実施例におけるミッション定義について説明する。目的(目標)は、材料を集めて、rabbit_stewを作ることである。ただし、適切な順番で材料を集めないと違うもの(たとえば、stick、mushroom_stew)ができて失敗してしまう。
逐次報酬は得られず、成功か失敗かによってだけ報酬が得られる。
図8に示されるように、13×13升目のフィールドに様々なアイテムを配置している。図9は、そのアイテム配置の一例を示している。したがって、材料は決められた8箇所(サブゴール)にある。常に、同じ初期状態(start)からミッションを開始する。
アクションは4方向の移動のみである。収集/クラフトは自動的に行われる。図10は、本例におけるトイタスクのタスクルール210である、Craftルールを示す図である。本例のトイタスクは、最短39手である。
本第1の実施例では、タスク知識202を人手で作成している。本例における優先ルール204は、目標アイテムの前提となる材料の位置をルール化したものである。また、抑制ルール206は、失敗アイテムの前提となる材料の位置をルール化したものである。
図11は、優先ルール204の一例を示す図である。図12は、抑制ルール206の一例を示す図である。
図13は、本実施形態における強化学習装置100と、非特許文献1に開示されている階層強化学習(先行技術)との比較結果(実験結果)を示す図である。図13において、横軸は試行回数を示し、縦軸はタスク成功率を示す。また、図13において、一点破線は、先行技術の実験結果を示し、二点破線は、タスク知識202として抑制ルール206のみを利用した実験結果を示し、破線は、タスク知識202として優先ルール204のみを利用した実験結果を示す。そして、実線は、タスク知識202として優先ルール204と抑制ルール206とを併用した実験結果を示す。
図13から明らかなように、タスク知識202として優先ルール204と抑制ルール206とを併用した、本実施形態に係る強化学習装置100の学習速度は、先行技術の学習速度と比較して、約5倍高速化されることが分かる。また、タスク知識202として優先ルール204のみを用いた場合でも、本実施形態に係る強化学習装置100の学習速度は、先行技術の学習速度と比較して高速化されていることが分かる。  
上述した第1の実施例では、人手によって、優先ルール204と抑制ルール206とを作成している。これに対して、以下に述べる第2の実施例では、推論器320を用いて、優先ルール204と抑制ルール206とを動的に作成する。
最初に、推論器320を用いて優先ルール204を導出する例について説明する。但し、タスクルール210は、説明を簡略化するために、図10に示したものとは異なるものとする。
図14は、優先ルール204を推論器320を用いて導出するために必要な「背景知識」と「目的状態」とを示す図である。述語として、動作述語(goto)と状態述語(have)とを定義している。図14において、「背景知識」のPickupルールは、図9に示すアイテム配置を表現したものである。
推論器320は、図14に示された「背景知識」および「目的状態」のもとで、後ろ向き推論を適用していき、導出された動作述語を優先ルール204とする。図15は、そのようにして導出された優先ルール204の一例を示す図である。
次に、推論器320を用いて抑制ルール206を導出する例について説明する。
推論器320は、図16に示される「非目的状態」を定義し、それに至る動作述語を抑制ルール206とする。図16において、分岐している箇所の条件は、ANDなので、すべて満たされていると非目的状態になる。
図17は、そのようにして導出された抑制ルール206の一例を示す図である。図17は、3つの抑制ルールを示している。最初の抑制ルールは、red_mushroomとbrown_mushroomとを持っていて、bowlを持っていないときに、SWに行くのは抑制ルールであることを示している。以下の2つの抑制ルールも同様である。
以上のようにして、推論器320は、タスクルール210から優先ルール204と抑制ルール206とを動的に作成することができる。
なお、本発明の具体的な構成は前述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。
以上、実施形態(実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)開始点からゴールに到達するまでのN(Nは3以上の整数)個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナと;前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナと;を備え、前記ハイレベルプランナは、タスク知識を用いて、前記N個のサブゴールをM(MはNより小さい1以上の整数)個のサブゴール候補に絞って、前記M個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定部を備え、前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である、強化学習装置。
(付記2)前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資するサブゴールを優先する優先ルールを含み、前記サブゴール決定部は、前記優先ルールに従って、前記N個のサブゴールの中から前記M個のサブゴール候補を優先的に抽出して選択する優先選択部を含む、付記1に記載の強化学習装置。
(付記3)前記優先選択部は、前記優先ルールに従って、前記N個のサブゴールから前記M個のサブゴール候補を抽出するサブゴール候補抽出部と;前記M個のサブゴール候補の中から優先的に1つのサブゴールを選択して、選択したサブゴールを出力するサブゴール選択部と;を含む、付記2に記載の強化学習装置。
(付記4)前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資さないサブゴールを抑制する抑制ルールを更に含み、前記サブゴール決定部は、前記抑制ルールに基づいて、前記選択したサブゴールが、前記特定のサブゴールとしてOKかNGかを判定するサブゴールチェック部を更に備える、付記3に記載の強化学習装置。
(付記5)前記サブゴール選択部は、前記サブゴールチェック部でNGと判定された場合に、所定の確率で、前記M個のサブゴール候補の中から、前記1つのサブゴールを選択し直す、付記4に記載の強化学習装置。
(付記6)ハイレベルプランナが、開始点からゴールに到達するまでのN(Nは3以上の整数)個のサブゴールの中から特定のサブゴールを決定し、ローレベルプランナが、前記特定のサブゴールに従って実際のアクションを決める、強化学習方法であって、前記ハイレベルプランナのサブゴール決定部が、タスク知識を用いて、前記N個のサブゴールをM(MはNより小さい1以上の整数)個のサブゴール候補に絞って、前記M個のサブゴール候補の中から優先的に前記特定のサブゴールを決定し、前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべき規則を規定しているタスクルールに基づいて決定された知識である、強化学習方法。
(付記7)前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資するサブゴールを優先する優先ルールを含み、前記サブゴール決定部の優先選択部が、前記優先ルールに従って、前記N個のサブゴールの中から前記M個のサブゴール候補を優先的に抽出して選択する、付記6に記載の強化学習方法。
(付記8)前記優先選択部のサブゴール候補抽出部が、前記優先ルールに従って、前記N個のサブゴールから前記M個のサブゴール候補を抽出し、前記優先選択部のサブゴール選択部が、前記M個のサブゴール候補の中から優先的に1つのサブゴールを選択して、選択したサブゴールを出力する、付記7に記載の強化学習方法。
(付記9)前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資さないサブゴールを抑制する抑制ルールを更に含み、前記サブゴール決定部のサブゴールチェック部が、前記抑制ルールに基づいて、前記選択したサブゴールが、前記特定のサブゴールとしてOKかNGかを判定する、付記8に記載の強化学習方法。
(付記10)前記サブゴール選択部が、前記サブゴールチェック部でNGと判定された場合に、所定の確率で、前記M個のサブゴール候補の中から、前記1つのサブゴールを選択し直す、付記9に記載の強化学習方法。
(付記11)開始点からゴールに到達するまでのN(Nは3以上の整数)個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナ手順と、前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナ手順と、をコンピュータに実行させる強化学習プログラムを記録した強化学習プログラム記録媒体であって、前記ハイレベルプランナ手順は、タスク知識を用いて、前記N個のサブゴールをM(MはNより小さい1以上の整数)個のサブゴール候補に絞って、前記M個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定手順を備え、前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である、強化学習プログラム記録媒体。
(付記12)前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資するサブゴールを優先する優先ルールを含み、前記サブゴール決定手順は、前記優先ルールに従って、前記N個のサブゴールの中から前記M個のサブゴール候補を優先的に抽出して選択する優先選択手順を含む、付記11に記載の強化学習プログラム記録媒体。
(付記13)前記優先選択手順は、前記優先ルールに従って、前記N個のサブゴールから前記M個のサブゴール候補を抽出するサブゴール候補抽出手順と、前記M個のサブゴール候補の中から優先的に1つのサブゴールを選択して、選択したサブゴールを出力するサブゴール選択手順と、を含む、付記12に記載の強化学習プログラム記録媒体。
(付記14)前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資さないサブゴールを抑制する抑制ルールを更に含み、前記サブゴール決定手順は、前記抑制ルールに基づいて、前記選択したサブゴールが、前記特定のサブゴールとしてOKかNGかを判定するサブゴールチェック手順を更に備える、付記13に記載の強化学習プログラム記録媒体。
(付記15)前記サブゴール選択手順は、前記サブゴールチェック手順でNGと判定された場合に、所定の確率で、前記M個のサブゴール候補の中から、前記1つのサブゴールを選択し直す、付記14に記載の強化学習プログラム記録媒体。
本発明に係る強化学習装置は、プラント運転支援システムや、インフラ運転支援システム等の用途に適用可能である。
  100  強化学習装置
  101  入力装置
  102  出力装置
  104  記憶装置
  105  データ処理装置
  201  プログラム
  202  タスク知識
  204  優先ルール
  206  抑制ルール
  210  タスクルール
  301  ハイレベルプランナ
  302  ローレベルプランナ
  303  サブゴール決定部
  305  優先選択部
  307  サブゴールチェック部
  311  サブゴール候補抽出部
  313  サブゴール選択部
  320  推論器
 

Claims (15)

  1. 開始点からゴールに到達するまでのN(Nは3以上の整数)個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナと、
    前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナと、を備え、
    前記ハイレベルプランナは、タスク知識を用いて、前記N個のサブゴールをM(MはNより小さい1以上の整数)個のサブゴール候補に絞って、前記M個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定部を備え、
    前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である、
    強化学習装置。
  2. 前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資するサブゴールを優先する優先ルールを含み、
    前記サブゴール決定部は、前記優先ルールに従って、前記N個のサブゴールの中から前記M個のサブゴール候補を優先的に抽出して選択する優先選択部を含む、
    請求項1に記載の強化学習装置。
  3. 前記優先選択部は、
    前記優先ルールに従って、前記N個のサブゴールから前記M個のサブゴール候補を抽出するサブゴール候補抽出部と、
    前記M個のサブゴール候補の中から優先的に1つのサブゴールを選択して、選択したサブゴールを出力するサブゴール選択部と、
    を含む、請求項2に記載の強化学習装置。
  4. 前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資さないサブゴールを抑制する抑制ルールを更に含み、
    前記サブゴール決定部は、前記抑制ルールに基づいて、前記選択したサブゴールが、前記特定のサブゴールとしてOKかNGかを判定するサブゴールチェック部を更に備える、
    請求項3に記載の強化学習装置。
  5. 前記サブゴール選択部は、前記サブゴールチェック部でNGと判定された場合に、所定の確率で、前記M個のサブゴール候補の中から、前記1つのサブゴールを選択し直す、請求項4に記載の強化学習装置。
  6. ハイレベルプランナが、開始点からゴールに到達するまでのN(Nは3以上の整数)個のサブゴールの中から特定のサブゴールを決定し、
    ローレベルプランナが、前記特定のサブゴールに従って実際のアクションを決める、強化学習方法であって、
    前記ハイレベルプランナのサブゴール決定部が、タスク知識を用いて、前記N個のサブゴールをM(MはNより小さい1以上の整数)個のサブゴール候補に絞って、前記M個のサブゴール候補の中から優先的に前記特定のサブゴールを決定し、
    前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべき規則を規定しているタスクルールに基づいて決定された知識である、
    強化学習方法。
  7. 前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資するサブゴールを優先する優先ルールを含み、
    前記サブゴール決定部の優先選択部が、前記優先ルールに従って、前記N個のサブゴールの中から前記M個のサブゴール候補を優先的に抽出して選択する、
    請求項6に記載の強化学習方法。
  8. 前記優先選択部のサブゴール候補抽出部が、前記優先ルールに従って、前記N個のサブゴールから前記M個のサブゴール候補を抽出し、
    前記優先選択部のサブゴール選択部が、前記M個のサブゴール候補の中から優先的に1つのサブゴールを選択して、選択したサブゴールを出力する、
    請求項7に記載の強化学習方法。
  9. 前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資さないサブゴールを抑制する抑制ルールを更に含み、
    前記サブゴール決定部のサブゴールチェック部が、前記抑制ルールに基づいて、前記選択したサブゴールが、前記特定のサブゴールとしてOKかNGかを判定する、
    請求項8に記載の強化学習方法。
  10. 前記サブゴール選択部が、前記サブゴールチェック部でNGと判定された場合に、所定の確率で、前記M個のサブゴール候補の中から、前記1つのサブゴールを選択し直す、請求項9に記載の強化学習方法。
  11. 開始点からゴールに到達するまでのN(Nは3以上の整数)個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナ手順と、
    前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナ手順と、
    をコンピュータに実行させる強化学習プログラムを記録した強化学習プログラム記録媒体であって、
    前記ハイレベルプランナ手順は、タスク知識を用いて、前記N個のサブゴールをM(MはNより小さい1以上の整数)個のサブゴール候補に絞って、前記M個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定手順を備え、
    前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である、
    強化学習プログラム記録媒体。
  12. 前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資するサブゴールを優先する優先ルールを含み、
    前記サブゴール決定手順は、前記優先ルールに従って、前記N個のサブゴールの中から前記M個のサブゴール候補を優先的に抽出して選択する優先選択手順を含む、
    請求項11に記載の強化学習プログラム記録媒体。
  13. 前記優先選択手順は、
    前記優先ルールに従って、前記N個のサブゴールから前記M個のサブゴール候補を抽出するサブゴール候補抽出手順と、
    前記M個のサブゴール候補の中から優先的に1つのサブゴールを選択して、選択したサブゴールを出力するサブゴール選択手順と、
    を含む、請求項12に記載の強化学習プログラム記録媒体。
  14. 前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資さないサブゴールを抑制する抑制ルールを更に含み、
    前記サブゴール決定手順は、前記抑制ルールに基づいて、前記選択したサブゴールが、前記特定のサブゴールとしてOKかNGかを判定するサブゴールチェック手順を更に備える、
    請求項13に記載の強化学習プログラム記録媒体。
  15. 前記サブゴール選択手順は、前記サブゴールチェック手順でNGと判定された場合に、所定の確率で、前記M個のサブゴール候補の中から、前記1つのサブゴールを選択し直す、請求項14に記載の強化学習プログラム記録媒体。
     
PCT/JP2017/027094 2017-07-26 2017-07-26 強化学習装置、強化学習方法、および強化学習プログラム記録媒体 WO2019021401A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019532275A JP6764143B2 (ja) 2017-07-26 2017-07-26 強化学習装置、強化学習方法、および強化学習プログラム
PCT/JP2017/027094 WO2019021401A1 (ja) 2017-07-26 2017-07-26 強化学習装置、強化学習方法、および強化学習プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/027094 WO2019021401A1 (ja) 2017-07-26 2017-07-26 強化学習装置、強化学習方法、および強化学習プログラム記録媒体

Publications (1)

Publication Number Publication Date
WO2019021401A1 true WO2019021401A1 (ja) 2019-01-31

Family

ID=65040042

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/027094 WO2019021401A1 (ja) 2017-07-26 2017-07-26 強化学習装置、強化学習方法、および強化学習プログラム記録媒体

Country Status (2)

Country Link
JP (1) JP6764143B2 (ja)
WO (1) WO2019021401A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020234913A1 (ja) * 2019-05-17 2020-11-26
US11673271B2 (en) 2020-02-05 2023-06-13 Denso Corporation Trajectory generation apparatus, multi-link system, and trajectory generation method
US11727308B2 (en) 2019-08-26 2023-08-15 Denso Corporation Learning system and method
JP7452228B2 (ja) 2019-05-09 2024-03-19 富士通株式会社 多目的モデルを訓練する訓練装置及び訓練方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HIROSHI OSADA ET AL.: "Reinforcement Learning in Partially Observable Markov Decision Process Including Probability State Transitions", IPSJ SIG NOTES, vol. 2004, no. 18, 2 March 2004 (2004-03-02), pages 31 - 34, ISSN: 0919-6072 *
KEI SENDA ET AL.: "Reinforcement Learning That Optimizes Both Performance and Reliability of Policy", TRANSACTIONS OF THE SOCIETY OF INSTRUMENT AND CONTROL ENGINEERS, vol. 43, no. 11, 30 November 2007 (2007-11-30), pages 1030 - 1036, ISSN: 0453-4654 *
KULKARNI, TEJAS D. ET AL.: "Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation", 30TH CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2016, 31 May 2016 (2016-05-31), pages 1 - 13, XP055360611 *
RYO TAGAWA ET AL.: "Soccer Agent ni Okeru Through Pass no Kyoka Gakushu", FIT2016 DAI 15 KAI FORUM ON INFORMATION TECHNOLOGY KOEN RONBUNSHU SEPARATE, vol. 2, 23 August 2016 (2016-08-23), pages 267 - 272 *
VEZHNEVETS, ALEXANDER SASHA, FEUDAL NETWORKS FOR HIERARCHICAL REINFORCEMENT LEARNING, 6 March 2017 (2017-03-06), XP080754067, Retrieved from the Internet <URL:https://arxiv.org/pdf/170.01161.pdf> [retrieved on 20171012] *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7452228B2 (ja) 2019-05-09 2024-03-19 富士通株式会社 多目的モデルを訓練する訓練装置及び訓練方法
JPWO2020234913A1 (ja) * 2019-05-17 2020-11-26
JP7279782B2 (ja) 2019-05-17 2023-05-23 日本電気株式会社 意思決定装置、意思決定方法、及び、プログラム
US11727308B2 (en) 2019-08-26 2023-08-15 Denso Corporation Learning system and method
US11673271B2 (en) 2020-02-05 2023-06-13 Denso Corporation Trajectory generation apparatus, multi-link system, and trajectory generation method

Also Published As

Publication number Publication date
JPWO2019021401A1 (ja) 2020-03-19
JP6764143B2 (ja) 2020-09-30

Similar Documents

Publication Publication Date Title
JP6764143B2 (ja) 強化学習装置、強化学習方法、および強化学習プログラム
US20210201156A1 (en) Sample-efficient reinforcement learning
Gonçalves et al. An extended Akers graphical method with a biased random‐key genetic algorithm for job‐shop scheduling
CN111898728A (zh) 一种基于多Agent强化学习的团队机器人决策方法
US11789698B2 (en) Computer processing and outcome prediction systems and methods
EP3696745A1 (en) Intelligent workflow advisor for part design, simulation and manufacture
Nicola et al. A LSTM neural network applied to mobile robots path planning
Cappo et al. Robust coordinated aerial deployments for theatrical applications given online user interaction via behavior composition
EP3884436A1 (en) Controlling agents using latent plans
Wood Evolutionary memetic algorithms supported by metaheuristic profiling effectively applied to the optimization of discrete routing problems
Apker et al. LTL templates for play-calling supervisory control
Ho et al. Human-centered ai using ethical causality and learning representation for multi-agent deep reinforcement learning
KR102610431B1 (ko) 인공지능 분석 기반 프로그램 소스코드의 요약문 생성 장치 및 방법
Keating et al. Emergence in the context of system of systems
Li Learning ui navigation through demonstrations composed of macro actions
Kouskoulas et al. Provably safe controller synthesis using safety proofs as building blocks
Madni Augmented intelligence: a human productivity and performance amplifier in systems engineering and engineered human–machine systems
Tay et al. Fall prediction for new sequences of motions
US11669731B2 (en) Solving based introspection to augment the training of reinforcement learning agents for control and planning on robots and autonomous vehicles
CA3221529A1 (en) Systems and methods for generation of action strategies by an autonomous system
CN110928253B (zh) 自动制造系统的动态加权启发式调度方法
KR102504939B1 (ko) 클라우드 기반 딥러닝 작업의 수행시간 예측 시스템 및 방법
Livingston et al. Hot-swapping robot task goals in reactive formal synthesis
Zamani Integrating iterative crossover capability in orthogonal neighborhoods for scheduling resource-constrained projects
Hansen et al. Input attribution for statistical model checking using logistic regression

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17919378

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019532275

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17919378

Country of ref document: EP

Kind code of ref document: A1