WO2021038781A1 - 学習装置、学習方法および学習プログラム - Google Patents

学習装置、学習方法および学習プログラム Download PDF

Info

Publication number
WO2021038781A1
WO2021038781A1 PCT/JP2019/033864 JP2019033864W WO2021038781A1 WO 2021038781 A1 WO2021038781 A1 WO 2021038781A1 JP 2019033864 W JP2019033864 W JP 2019033864W WO 2021038781 A1 WO2021038781 A1 WO 2021038781A1
Authority
WO
WIPO (PCT)
Prior art keywords
policy
reward function
sampling
decision
learning
Prior art date
Application number
PCT/JP2019/033864
Other languages
English (en)
French (fr)
Inventor
江藤 力
悠輝 中口
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2019/033864 priority Critical patent/WO2021038781A1/ja
Priority to JP2021541890A priority patent/JP7315007B2/ja
Priority to US17/637,138 priority patent/US20220343180A1/en
Publication of WO2021038781A1 publication Critical patent/WO2021038781A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning

Definitions

  • the present invention relates to a learning device, a learning method, and a learning program for performing reverse reinforcement learning.
  • Inverse reinforcement learning is known as one of the methods for formulating mathematical optimization problems. Inverse reinforcement learning is a method of learning an objective function (reward function) that evaluates behavior for each state based on the history of decision making made by an expert. In inverse reinforcement learning, the reward function of an expert is estimated by updating the reward function so that the decision-making history is closer to that of the expert.
  • objective function forward function
  • the initial value of the reward function is set, and a decision-making simulation using this reward function is performed.
  • a decision-making simulation based on reinforcement learning an optimization calculation is performed to determine a policy using a state transition model, a reward function, and a simulator, and the intention is as a history of states and actions output based on the policy.
  • the decision history is determined.
  • Optimal control may be executed as this decision-making simulation.
  • the reward function is updated so as to reduce the difference between the decision history based on this reward function and the decision history of the expert.
  • a decision-making simulation is performed using this reward function, the decision-making history is determined, and the reward function is updated in the same manner.
  • the reward function of the expert is estimated so as to eliminate the difference between the reward function and the decision making of the expert.
  • Patent Document 1 describes reverse reinforcement learning in consideration of model-free.
  • the environmental dynamics which is a mathematical model of the controlled object, in advance. Therefore, the influence of the error due to the modeling can be eliminated, and the optimization calculation for determining the learning policy described above becomes unnecessary, so that the calculation cost can be reduced.
  • Relative entropy inverse reinforcement learning is a model-free learning method for reward functions by using sampling from decision-making history by random measures.
  • the relative entropy inverse reinforcement learning uses focused sampling based on a random policy, there is a problem that the learning efficiency of the reward function deteriorates when the action space becomes high-dimensional.
  • Patent Document 1 describes reverse reinforcement learning in consideration of model-free learning, but a specific learning method is not specified, and such a sampling problem is not considered. Therefore, in relative entropy reverse reinforcement learning that can realize model-free learning, it is preferable that the dispersion of the estimator can be suppressed and the deterioration of the learning efficiency can be suppressed even when the sampling space becomes high-dimensional.
  • an object of the present invention is to provide a learning device, a learning method, and a learning program capable of suppressing deterioration of learning efficiency when performing relative entropy reverse reinforcement learning.
  • the learning device includes a reward function estimation unit that estimates a reward function by multiple-priority sampling using a sample of the decision-making history of the subject and a decision-making history generated based on the sampling strategy, and an estimated reward function. It is equipped with a policy estimation unit that estimates the policy by strengthening learning using, and the reward function estimation unit uses the policy estimated by the policy estimation unit as a new sampling policy for the decision-making history of the target person and the sampling policy. It is characterized in that the reward function is estimated by multiple-weighted sampling using a sample of the decision-making history generated based on the above.
  • the reward function is estimated by multiple-priority sampling using the decision-making history of the subject and the sample of the decision-making history generated based on the sampling strategy, and the enhanced learning using the estimated reward function is used.
  • the reward function is estimated by estimating the policy by the method, using the estimated policy as a new sampling policy, and using multiple-weighted sampling using the subject's decision-making history and the decision-making history sample generated based on the sampling strategy. It is characterized by doing.
  • the learning program provides a reward function estimation process for estimating a reward function by using a computer with multiple priority sampling using a sample of the decision-making history of the subject and a decision-making history generated based on the sampling strategy.
  • the policy estimation process for estimating the policy is executed by strengthening learning using the estimated reward function, and the policy estimated by the policy estimation process is used as a new sampling policy in the reward function estimation process, and the decision history of the target person is used.
  • the reward function is estimated by multiple-weighted sampling using a sample of the decision-making history generated based on the sampling strategy.
  • FIG. 1 is a block diagram showing a configuration example of an embodiment of the learning device according to the present invention.
  • the learning device 100 of the present embodiment includes a storage unit 10, an input unit 20, a reward function estimation unit 30, a policy estimation unit 40, and an output unit 50.
  • the learning device 100 is a device that performs inverse reinforcement learning that estimates a reward (function) from the behavior of a target person, and in particular, is a relative entropy inverse that can learn a reward function without using a state transition model (that is, model-free). It is a device that performs reinforcement learning.
  • An example of a target person is an expert in the field.
  • Equation 1 r (s, a) represents the reward obtained by the action taken for the state. Further, ⁇ is a parameter optimized by inverse reinforcement learning, f ⁇ is a feature amount of decision-making history (that is, a feature amount of traffic), and f s, a is a feature amount for individual decision-making. ..
  • Equation 2 aims to find the distribution P ( ⁇ ) that maximizes the entropy
  • Equation 3 aims to find the distribution P ( ⁇ ) that minimizes the relative entropy.
  • Q ( ⁇ ) is a baseline distribution.
  • Equation 4 the probability distribution in the relative entropy inverse reinforcement learning using the above equation 3 is expressed by the following equation 5.
  • Equation 5 shown above is used to perform model-free reverse reinforcement learning.
  • the reward function can be learned model-free by sampling from the decision-making history by a random measure using Equation 5.
  • the baseline policy ⁇ b ( ⁇ ) and the baseline distribution Q ( ⁇ ) can be defined as follows.
  • the set of trajectories sampled in (a t s t) and D samp, second term within the brackets of formula 6 shown above have the formula shown in Equation 7 below Can be converted to.
  • Equation 7 ⁇ s (a t
  • the weighting coefficient vector ⁇ of the reward function can be updated without using the state transition model D ( ⁇ ).
  • Equation 9 is an equation for calculating the expected value (average sum) of exp ( ⁇ T f ⁇ ) by priority sampling.
  • FIG. 2 is an explanatory diagram showing an example of transition of the value to be calculated. Since exp ( ⁇ T f ⁇ ) is an exponential function, it changes as shown in FIG.
  • the expected value (average sum) can be calculated using the sample of the portion P1 illustrated in FIG.
  • the sampling policy ⁇ s ( ⁇ ) is assumed to be a uniform distribution, sampling is evenly performed from the portion P2 in which the value of exp ( ⁇ T f ⁇ ) is small. Then, when the sampling space has a high dimension, the possibility of sampling from the partial P2 becomes higher, and the variance of the estimated amount in the priority sampling becomes larger.
  • the storage unit 10 stores information necessary for the learning device 100 to perform various processes.
  • the storage unit 10 may store various parameters used in the estimation process by the reward function estimation unit 30 and the policy estimation unit 40, which will be described later. Further, the storage unit 10 may store the decision-making history of the target person received by the input unit 20 described later.
  • the storage unit 10 is realized by, for example, a magnetic disk or the like.
  • the input unit 20 accepts the input of the decision-making history (trajectory) of the target person. For example, when learning for the purpose of automatic driving, the input unit 20 may accept input of a large amount of driving history data based on a complicated intention of the driver as a decision-making history.
  • Reward function estimator 30 the decision history of the input subject, sampling strategy [pi s
  • the sampling policy calculated from the estimated value of the reward function at each time point is used.
  • the sampling measure calculated using the estimated value of the reward function can be said to be a measure derived using the estimated value of the reward function at each time point. Therefore, the sampling policy calculated (derived) using the estimated value of the reward function can be called the induced sampling policy.
  • the reward function estimation process by the reward function estimation unit 30 and the estimation process of the guided sampling policy by the policy estimation unit 40, which will be described later, are alternately performed. Such processing is performed for the following reasons.
  • the behavior of an expert should be performed so as to maximize the value of the reward function.
  • inverse reinforcement learning learning is performed to find the reward function of an expert. Therefore, if learning by reinforcement learning or the like is performed based on the reward function in the middle of estimation, a measure for maximizing the reward will be learned. Then, by using this measure, for example, the probability of sampling from the portion P1 in FIG. 2 becomes higher. That is, by estimating the policy using the reward function currently being estimated and switching it as the sampling policy to perform inverse reinforcement learning, the sampling policy is more efficient sampling (sampling from partial P1 in FIG. 2). ) Is expected to be done.
  • the reward function estimation unit 30 estimates the reward function by multiple priority sampling. First, the reward function estimation unit 30 generates a sample D of the decision-making history generated from the simulator based on the sampling policy ⁇ s ( ⁇ ). At the start of processing, the reward function estimation unit 30 may initialize the sampling policy ⁇ s ( ⁇ ) as a uniform distribution.
  • the reward function estimation unit 30 estimates the reward function using the sample D samp of the decision-making history generated by the multiple priority sampling.
  • the multiple-importance sampling method used by the reward function estimation unit 30 for estimation is arbitrary.
  • the reward function estimation unit 30 may use, for example, balanced heuristic multi-weighted sampling in which the weight of each distribution can be adjusted.
  • the balanced heuristic multi-weighted sampling when the i-th sampling strategy is ⁇ s [i] ( ⁇ ) and the j-th trajectory generated from the i-th sampling strategy is ⁇ [ij] , the above equation 6
  • Equation 10 The second term in parentheses is represented by Equation 10 shown below.
  • the reward function estimation unit 30 may estimate the reward function by updating the weighting coefficient vector ⁇ of the reward function based on the maximum likelihood estimation, for example, as shown in the above equation 6. If there is a sample of the decision-making history that has already been generated, the reward function estimation unit 30 may estimate the reward function including the sample.
  • the reward function estimation unit 30 adds the decision-making history sample D i generated based on the new sampling policy to the decision-making history sample D-samp already generated based on the original sampling policy.
  • added decision history of the sample group i.e., D samp ⁇ D i
  • i represents the number of times of repeated processing.
  • the policy estimation unit 40 estimates the optimal policy based on the estimated reward function. Specifically, the policy estimation unit 40 solves reinforcement learning (RL: Reinforcement Learning) using the estimated reward function and optimal control problem (OC: Optimal Control) using the estimated reward function. Estimate the policy. Here, exp ( ⁇ T f ⁇ ) in Equation 9 is rewritten as in Equation 10 shown below. Therefore, the policy estimation unit 40 may estimate the policy so as to increase the cumulative reward.
  • RL Reinforcement Learning
  • OC Optimal Control
  • the method by which the policy estimation unit 40 estimates the policy is arbitrary as long as it is a method that does not use the state transition model (model-free method).
  • the policy estimation unit 40 may estimate the policy by, for example, soft Q learning.
  • Q-learning is a method of finding an action value function Q (s, a) (also referred to as a Q function), which is a function for returning a cumulative reward when an action a is performed in the state s.
  • Q discrete values are used as values indicating the action a, and the Q function is implemented in a table format.
  • a Q network in which the Q function of Q learning is represented by a deep neural network may be used.
  • the policy estimation unit 40 may end the process of estimating the policy before the optimum evaluation value (for example, Q value) converges. In other words, the policy estimation unit 40 may end the process of estimating the policy when the evaluation value (for example, the Q value) increases more than a predetermined condition. As a predetermined condition, a specific value or rate of increase is set.
  • the policy estimation unit 40 may estimate the policy by the soft actor-Critic so that the continuous value can be used as the value indicating the action a.
  • the reward function estimation unit 30 uses the estimated policy as a new sampling policy, and estimates the reward function using a sample of the decision-making history generated based on this sampling policy. .. After that, the above process is repeated until the reward function estimation unit 30 determines that the reward function has converged.
  • the output unit 50 outputs the estimated reward function and policy.
  • the input unit 20, the reward function estimation unit 30, the policy estimation unit 40, and the output unit 50 are computer processors (for example, CPU (Central Processing Unit), GPU (Graphics Processing Unit)) that operate according to a program (learning program). )).
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • the program is stored in the storage unit 10 included in the learning device 100, and the processor reads the program and operates as an input unit 20, a reward function estimation unit 30, a policy estimation unit 40, and an output unit 50 according to the program. May be good.
  • the function of the learning device 100 may be provided in the SaaS (Software as a Service) format.
  • the input unit 20, the reward function estimation unit 30, the policy estimation unit 40, and the output unit 50 may be realized by dedicated hardware, respectively. Further, a part or all of each component of each device may be realized by a general-purpose or dedicated circuit (circuitry), a processor, or a combination thereof. These may be composed of a single chip or may be composed of a plurality of chips connected via a bus. A part or all of each component of each device may be realized by a combination of the above-mentioned circuit or the like and a program.
  • each component of the learning device 100 when a part or all of each component of the learning device 100 is realized by a plurality of information processing devices and circuits, the plurality of information processing devices and circuits may be centrally arranged or distributed. It may be arranged.
  • the information processing device, the circuit, and the like may be realized as a form in which each of the client-server system, the cloud computing system, and the like is connected via a communication network.
  • FIG. 3 is an explanatory diagram showing an operation example of the learning device 100 of the present embodiment.
  • the input unit 20 inputs the decision-making history DE of the target person (step S11).
  • the policy estimation unit 40 initializes the policy ⁇ s ( ⁇ ) (step S12).
  • the policy estimation unit 40 initializes the policy ⁇ s ( ⁇ ) as a uniform distribution.
  • the processes from step S13 to step S16 are repeated until a predetermined condition is satisfied. In FIG. 3, the number of repetitions will be described as I.
  • Reward function estimator 30 generates a sample D i decision history from the policy ⁇ s ( ⁇ ) (step S13). Reward function estimator 30, to the sample D samp already generated, adding the generated sample D i (step S14). The reward function estimation unit 30 updates the reward function ⁇ by multi-weighted sampling using the added sample D samp (step S15). Then, the policy estimation unit 40 updates the policy ⁇ s ( ⁇ ) by solving the forward problem with the updated reward function ⁇ (step S16). Then, the output unit 50 outputs the estimated reward function ⁇ and the policy ⁇ s ( ⁇ ) (step S17).
  • FIG. 3 shows the process of sequentially estimating the guided sampling policy in the framework of the relative entropy reverse reinforcement learning
  • the algorithm illustrated in FIG. 3 can be called the guided relative entropy reverse reinforcement learning algorithm. ..
  • FIG. 4 is an explanatory diagram showing another operation example of the learning device 100 of the present embodiment.
  • the reward function estimation unit 30 estimates the reward function by using the sample of the decision-making history generated based on the sampling policy from the decision-making history of the target person by the multiple priority sampling (step S21).
  • the policy estimation unit 40 estimates the policy by solving the forward problem using the estimated reward function (step S22).
  • the reward function estimation unit 30 uses the estimated policy as a new sampling policy, and estimates the reward function using a sample of the decision-making history generated based on the sampling policy (step S23). After that, when the reward function converges (Yes in step S24), the process ends, and when the reward function does not converge (No in step S24), the processes of steps S22 and S23 are repeated.
  • the reward function estimation unit 30 estimates the reward function by multiple priority sampling using the decision-making history of the target person and the sample of the decision-making history generated based on the sampling policy, and the policy.
  • the estimation unit 40 estimates the policy by reinforcement learning using the estimated reward function.
  • the reward function estimation unit 30 uses the estimated policy as a new sampling policy, and performs a reward function by multiple-priority sampling using the target person's decision-making history and a sample of the decision-making history generated based on the sampling policy. To estimate. Therefore, it is possible to suppress deterioration of learning efficiency when performing relative entropy reverse reinforcement learning.
  • FIG. 5 is a block diagram showing an outline of the learning device according to the present invention.
  • the learning device 80 according to the present invention is a sample of decision-making history (eg, ⁇ s ( ⁇ )) generated based on the decision-making history (eg, DE ) of the subject (eg, expert) and the sampling strategy (eg, ⁇ s ( ⁇ )).
  • D samp to estimate the reward function (for example, ⁇ ) by multiple weight sampling
  • the reward function estimation unit 81 for example, reward function estimation unit 30
  • the reinforcement learning using the estimated reward function to estimate the policy It is provided with a policy estimation unit 82 (for example, a policy estimation unit 40).
  • Reward function estimator 81 the estimated measures as a new sampling strategy by strategy estimating unit 82, multiple importance sampling using a sample (for example, D i ⁇ D samp) of the generated decision history based on the sampling strategy Estimate the reward function by.
  • a sample for example, D i ⁇ D samp
  • the policy estimation unit 82 may estimate a policy for increasing the cumulative reward obtained from the estimated reward function.
  • the policy estimation unit 82 may end the process of estimating the policy when the evaluation value (for example, the Q value) increases more than the predetermined condition. In this way, it is not necessary to optimize the policy until it converges, so that the learning efficiency can be improved.
  • the evaluation value for example, the Q value
  • the reward function estimation unit 81 has a sample of the decision-making history generated based on the new sampling policy (for example, D samp ) with respect to the sample of the decision-making history already generated based on the original sampling policy (for example, D samp). for example D i) was added, it may estimate the compensation function using a sample group of decision history made (e.g. D i ⁇ D samp). Such a configuration makes it possible to reduce the variance.
  • the reward function estimation unit 81 may estimate the reward function by updating the weighting coefficient vector of the reward function based on the maximum likelihood estimation (for example, using Equation 6 shown above).
  • the policy estimation unit 82 may determine the policy by reinforcement learning that does not use the state transition model (that is, model-free).
  • the policy estimation unit 82 may estimate the policy by soft Q-learning (for example, when the value indicating the action is a discrete value) or soft actor critic (for example, when the value indicating the action is a continuous value). ..
  • the reward function estimation unit 81 may estimate the reward function by balanced heuristic multiple priority sampling.
  • FIG. 6 is a schematic block diagram showing a configuration of a computer according to at least one embodiment.
  • the computer 1000 includes a processor 1001, a main storage device 1002, an auxiliary storage device 1003, and an interface 1004.
  • the learning device 80 described above is mounted on the computer 1000.
  • the operation of each processing unit described above is stored in the auxiliary storage device 1003 in the form of a program (learning program).
  • the processor 1001 reads a program from the auxiliary storage device 1003, deploys it to the main storage device 1002, and executes the above processing according to the program.
  • the auxiliary storage device 1003 is an example of a non-temporary tangible medium.
  • non-temporary tangible media include magnetic disks, magneto-optical disks, CD-ROMs (Compact Disc Read-only memory), DVD-ROMs (Read-only memory), which are connected via interface 1004. Examples include semiconductor memory.
  • the program may be for realizing a part of the above-mentioned functions. Further, the program may be a so-called difference file (difference program) that realizes the above-mentioned function in combination with another program already stored in the auxiliary storage device 1003.
  • difference file difference program
  • the reward function estimation unit that estimates the reward function by multiple priority sampling using the decision-making history of the subject and the sample of the decision-making history generated based on the sampling policy, and the estimated reward function are used. It is equipped with a policy estimation unit that estimates a policy by reinforcement learning, and the reward function estimation unit uses the policy estimated by the policy estimation unit as a new sampling policy, and uses the decision-making history of the target person and the sampling policy as a new sampling policy.
  • a learning device characterized in that a reward function is estimated by the multi-weighted sampling using a sample of a decision-making history generated based on the above.
  • the policy estimation unit is the learning device according to Appendix 1 that estimates a policy for increasing the cumulative reward obtained from the estimated reward function.
  • Appendix 3 The learning device according to Appendix 1 or Appendix 2, wherein the policy estimation unit ends the process of estimating the policy when the evaluation value increases more than a predetermined condition.
  • the reward function estimation unit is added by adding a sample of the decision-making history generated based on the new sampling policy to the sample of the decision-making history already generated based on the original sampling policy.
  • the learning device according to any one of Supplementary note 1 to Appendix 3 for estimating a reward function using a sample group of decision-making history.
  • Appendix 7 The learning device according to any one of Appendix 1 to Appendix 6 for estimating a policy by soft Q-learning or soft actor critic.
  • the reward function is estimated by multiple-priority sampling using the decision-making history of the subject and the sample of the decision-making history generated based on the sampling policy, and the policy is implemented by enhanced learning using the estimated reward function. Estimate, use the estimated policy as a new sampling policy, and estimate the reward function by the multiple-priority sampling using the decision-making history of the subject and the decision-making history sample generated based on the sampling policy. A learning method characterized by that.
  • Appendix 10 The learning method according to Appendix 9 for estimating a measure for increasing the cumulative reward obtained from the estimated reward function.
  • the reward function estimation process for estimating the reward function and the estimation are performed on the computer by the multiple priority sampling using the decision history of the subject and the sample of the decision history generated based on the sampling strategy.
  • a policy estimation process for estimating a policy is executed by enhanced learning using a reward function, and in the reward function estimation process, the policy estimated by the policy estimation process is used as a new sampling policy, and the decision history of the target person is used.
  • Appendix 12 The learning program according to Appendix 11, which causes a computer to estimate a policy for increasing the cumulative reward obtained from the estimated reward function in the policy estimation process.
  • Storage unit 20 Input unit 30 Reward function estimation unit 40 Policy estimation unit 50 Output unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

報酬関数推定部81は、対象者の意思決定履歴とサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定する。方策推定部82は、推定された報酬関数を用いた強化学習により方策を推定する。そして、報酬関数推定部81は、方策推定部82により推定された方策を新たなサンプリング方策とし、対象者の意思決定履歴と、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定する。

Description

学習装置、学習方法および学習プログラム
 本発明は、逆強化学習を行う学習装置、学習方法および学習プログラムに関する。
 近年、様々な業務における最適な意思決定を自動で定式化し、機械化する技術がより重要視されている。一般に、最適な意思決定を行うためには、最適化対象を数理最適化問題として定式化し、その問題を解くことで、最適な行動を決定する。その際、数理最適化問題の定式化がポイントになるが、人手でこの定式化を行うことは難しい。そこで、この定式化を簡素にすることで、技術をさらに発展させる試みが行われている。
 数理最適化問題を定式化する方法の一つとして、逆強化学習が知られている。逆強化学習は、熟練者が行った意思決定の履歴に基づいて、状態ごとに行動を評価する目的関数(報酬関数)を学習する方法である。逆強化学習では、意思決定の履歴を熟練者のものへ近づけるように報酬関数を更新していくことで、熟練者の報酬関数を推定する。
 逆強化学習では、通常、熟練者の意思決定履歴、実際に動作させた場合の状態を表わすシミュレータもしくは実機、および、状態に応じて予測される遷移先を表わす状態遷移(予測)モデルを用いて学習が行われる。
 まず、報酬関数の初期値が設定され、この報酬関数を用いた意思決定シミュレーションが行われる。具体的には、強化学習に基づく意思決定シミュレーションとして、状態遷移モデルと報酬関数とシミュレータを用いて方策を決定する最適化計算が行われ、方策に基づき出力される状態と行動の履歴として、意思決定履歴が決定される。なお、この意思決定シミュレーションとして、最適制御を実行してもよい。この報酬関数に基づく意思決定履歴と熟練者の意思決定履歴との差を小さくするように報酬関数が更新される。そして、この報酬関数を用いて意思決定シミュレーションを行い、意思決定履歴を決定し、同様に報酬関数を更新する。上記処理を繰り返すことにより、報酬関数と熟練者の意思決定との差をなくすように熟練者の報酬関数が推定される。
 一方、状態遷移モデルの精緻化は、一般に困難である。そこで、状態遷移モデルを用いずに報酬関数を推定可能なモデルフリー逆強化学習の方法も提案されている。例えば、特許文献1には、モデルフリーを考慮した逆強化学習について記載されている。特許文献1に記載された方法では、制御対象の数学的モデルである環境ダイナミクスを事前に知る必要はない。そのため、モデル化に伴う誤差の影響をなくすことができ、さらに、上述する学習時の方策を決定する最適化計算が不要になるため、計算コストを削減することも可能になる。
国際公開第2017/159126号
 モデルフリー逆強化学習の方法として、相対エントロピー逆強化学習が挙げられる。相対エントロピー逆強化学習は、ランダム方策による意思決定履歴からのサンプリングを用いることで、報酬関数をモデルフリーに学習できる方法である。ただし、相対エントロピー逆強化学習では、ランダム方策に基づく重点サンプリングを用いているため、行動空間が高次元になる場合、報酬関数の学習効率が悪化するという問題がある。
 特許文献1には、モデルフリーを考慮した逆強化学習について記載されているが、具体的な学習方法が明示されておらず、このようなサンプリングの課題については考慮されていない。そのため、モデルフリーな学習を実現可能な相対エントロピー逆強化学習において、サンプリング空間が高次元になるような場合であっても、推定量の分散を抑制して学習効率の悪化を抑制できることが好ましい。
 そこで、本発明は、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる学習装置、学習方法および学習プログラムを提供することを目的とする。
 本発明による学習装置は、対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定する報酬関数推定部と、推定された報酬関数を用いた強化学習により方策を推定する方策推定部とを備え、報酬関数推定部が、方策推定部により推定された方策を新たなサンプリング方策とし、対象者の意思決定履歴と、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定することを特徴とする。
 本発明による学習方法は、対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定し、推定された報酬関数を用いた強化学習により方策を推定し、推定された方策を新たなサンプリング方策とし、対象者の意思決定履歴と、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定することを特徴とする。
 本発明による学習プログラムは、コンピュータに、対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定する報酬関数推定処理、および、推定された報酬関数を用いた強化学習により方策を推定する方策推定処理を実行させ、報酬関数推定処理で、方策推定処理で推定された方策を新たなサンプリング方策とし、対象者の意思決定履歴と、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定させることを特徴とする。
 本発明によれば、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる。
本発明による学習装置の一実施形態の構成例を示すブロック図である。 算出対象の値の推移の例を示す説明図である。 学習装置の動作例を示す説明図である。 学習装置の他の動作例を示す説明図である。 本発明による学習装置の概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。
 図1は、本発明による学習装置の一実施形態の構成例を示すブロック図である。本実施形態の学習装置100は、記憶部10と、入力部20と、報酬関数推定部30と、方策推定部40と、出力部50とを備えている。
 学習装置100は、対象者の行動から報酬(関数)を推定する逆強化学習を行う装置であり、特に、状態遷移モデルを用いないで(すなわち、モデルフリーに)報酬関数を学習できる相対エントロピー逆強化学習を行う装置である。対象者の例として、その分野のエキスパート(熟練者)が挙げられる。
 以下、モデルフリー逆強化学習について、詳細に説明する。逆強化学習では、Feature Matchingに基づく履歴(状態sに対する行動aの履歴)の確率モデルを導入することが一般的である。今、意思決定履歴(トラジェクトリとも言う。)をτ=s,…,sとしたとき、報酬関数r(τ)は、以下に示す式1で表すことができる。
Figure JPOXMLDOC01-appb-M000001
 式1において、r(s,a)は、状態に対してとった行動により得られる報酬を表わす。また、θは、逆強化学習により最適化するパラメータであり、fτは、意思決定履歴の特徴量(すなわち、トラジェクトリの特徴量)、fs,aは、個々の意思決定に対する特徴量である。
 ここで、熟練者のトラジェクトリの集合をDとしたとき、逆強化学習では、Feature Matchingを表わす制約条件
Figure JPOXMLDOC01-appb-M000002
 を満たすように、以下の式2または式3を満たすP(τ)を求めることが目的とされる。具体的には、式2では、エントロピーが最大になる分布P(τ)を求めることを目的とし、式3では、相対エントロピーが最小になる分布P(τ)を求めることを目的とする。なお、Q(τ)は、ベースライン分布である。
Figure JPOXMLDOC01-appb-M000003
 ラグランジュの未定乗数法より、θを未定乗数とした場合、上記に示す式2を用いた最大エントロピー逆強化学習での確率分布は、以下の式4で表される。また、上記に示す式3を用いた相対エントロピー逆強化学習での確率分布は、以下の式5で表される。
Figure JPOXMLDOC01-appb-M000004
 モデルフリー逆強化学習を行うためには、上記に示す式5が用いられる。具体的には、式5を用いて、ランダム方策による意思決定履歴からのサンプリングを行うことで、報酬関数をモデルフリーで学習できる。以下、上述する状態遷移モデルを用いずに、報酬関数を学習する方法を説明する。今、状態遷移モデルをD(τ)、ベースライン方策をπ(τ)としたとき、ベースライン分布Q(τ)は、状態遷移モデルとベースライン方策との積で表される。すなわち、Q(τ)=D(τ)π(τ)である。なお、ベースライン方策π(τ)およびベースライン分布Q(τ)は、以下のように定義できる。
Figure JPOXMLDOC01-appb-M000005
 このとき、最尤推定に基づく報酬関数の重みベクトルθの第k成分の更新式は、以下の式6で表される。
Figure JPOXMLDOC01-appb-M000006
 重点サンプリングを行う場合、サンプリング方策π(a|s)でサンプリングしたトラジェクトリの集合をDsampとすると、上記に示す式6のカッコ内の第二項は、以下の式7に示す式に変換できる。
Figure JPOXMLDOC01-appb-M000007
 そして、π(a|s)とπ(a|s)のいずれも一様分布であるとすると、上記の式7は、以下の式8に示す式に変換できる。
Figure JPOXMLDOC01-appb-M000008
 上記処理の結果、式6および式8に示すように、状態遷移モデルD(τ)を用いずに、報酬関数の重み係数ベクトルθを更新することができる。
 しかし、上述するように、相対エントロピー逆強化学習では、ランダム方策に基づく重点サンプリングを用いているため、行動空間が高次元になる場合、報酬関数の学習効率が悪化するという問題がある。その理由について、以下、具体的に説明する。
 π(a|s)に基づく重点サンプリングによる推定を行う場合、上記に示す式6のカッコ内の第二項は、以下の式9に示す式に近似できる。
Figure JPOXMLDOC01-appb-M000009
 ここで、式9における分母に着目する。式9における分母は、exp(θτ)の期待値(平均的な和)を重点サンプリングで算出する式である。また、図2は、算出対象の値の推移の例を示す説明図である。exp(θτ)は、指数関数であるため、図2に示すように推移する。
 効率的に学習するためには、図2に例示する部分P1のサンプルを用いて期待値(平均的な和)を算出できることが好ましい。しかし、サンプリング方策π(τ)を一様分布と仮定しているため、exp(θτ)の値が小さい部分P2からも満遍なくサンプリングされる。そして、サンプリング空間が高次元の場合、部分P2からサンプリングされてしまう可能性がさらに高くなり、重点サンプリングにおける推定量の分散がより大きくなってしまう。
 そこで、本実施形態では、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる方法を説明する。
 記憶部10は、学習装置100が各種処理を行うために必要な情報を記憶する。記憶部10は、後述する報酬関数推定部30および方策推定部40が、推定処理に用いる各種パラメータを記憶してもよい。また、記憶部10は、後述する入力部20が受け付けた対象者の意思決定履歴を記憶してもよい。記憶部10は、例えば、磁気ディスク等により実現される。
 入力部20は、対象者の意思決定履歴(トラジェクトリ)の入力を受け付ける。例えば、自動運転を目的とした学習を行う場合、入力部20は、ドライバの複雑な意図に基づく大量の運転履歴データの入力を意思決定履歴として受け付けてもよい。具体的には、意思決定履歴は、時刻tでの状態sと、時刻tでの行動aとの組み合わせの時系列データ{s,at=1 として表される。
 報酬関数推定部30は、入力された対象者の意思決定履歴から、サンプリング方策π(a|s)に基づく重点サンプリングによる推定を行う。本実施形態では、重点サンプリングにおける推定量の分散が大きくなることを防ぐため、各時点における報酬関数の推定値により算出されたサンプリング方策が用いられる。
 ここで、報酬関数の推定値を用いて算出されるサンプリング方策は、各時点における報酬関数の推定値を用いて誘導された方策とも言える。そのため、報酬関数の推定値を用いて算出(誘導)されたサンプリング方策のことを、誘導サンプリング方策ということができる。本実施形態では、報酬関数推定部30による報酬関数の推定処理と、後述する方策推定部40による誘導サンプリング方策の推定処理とを交互に行う。このような処理を行うのは、以下の理由による。
 例えば、熟練者の行動は、報酬関数の値をほぼ最大にするように行われるはずである。逆強化学習では、熟練者の報酬関数を求めるように学習する。そのため、推定途中の報酬関数に基づいて、強化学習等による学習を行えば、報酬を最大化する方策が学習されることになる。そして、この方策を用いることで、例えば、図2における部分P1からサンプリングされる確率がより高くなる。すなわち、現在推定中の報酬関数を使って方策を推定し、それをサンプリング方策として切り替えて逆強化学習を行うことで、そのサンプリング方策が、より効率的なサンプリング(図2における部分P1からのサンプリング)を行うことが期待される。
 本実施形態では、各時点における方策に基づいて報酬関数を推定するため、報酬関数推定部30は、多重重点サンプリングにより報酬関数を推定する。まず、報酬関数推定部30は、サンプリング方策π(τ)に基づきシミュレータから生成した意思決定履歴のサンプルDを生成する。なお、処理の開始時、報酬関数推定部30は、サンプリング方策π(τ)を一様分布として初期化しておけばよい。
 報酬関数推定部30は、多重重点サンプリングにより、生成された意思決定履歴のサンプルDsampを用いて報酬関数を推定する。報酬関数推定部30が推定に用いる多重重点サンプリング法は任意である。報酬関数推定部30は、例えば、各分布の重みが調整可能なバランスヒューリスティック多重重点サンプリングを用いてもよい。バランスヒューリスティック多重重点サンプリングにおいて、i番目のサンプリング方策をπ [i](τ)とし、i番目のサンプリング方策から生成されるj番目のトラジェクトリをτ[ij]としたとき、上記に示す式6のカッコ内の第二項は、以下に示す式10で表される。
Figure JPOXMLDOC01-appb-M000010
 報酬関数推定部30は、例えば、上記の式6に示すように、最尤推定に基づき報酬関数の重み係数ベクトルθを更新することにより、報酬関数を推定してもよい。また、すでに生成された意思決定履歴のサンプルが存在する場合、報酬関数推定部30は、そのサンプルを含めて報酬関数を推定すればよい。
 すなわち、報酬関数推定部30は、元のサンプリング方策に基づいてすでに生成された意思決定履歴のサンプルDsampに対して、新たなサンプリング方策に基づき生成された意思決定履歴のサンプルDを加え、加えられた意思決定履歴のサンプル群(すなわち、Dsamp∪D)を用いて報酬関数を推定してもよい。ここで、iは繰り返し処理の回数を表わす。
 方策推定部40は、推定された報酬関数に基づいて最適な方策を推定する。具体的には、方策推定部40は、推定された報酬関数を用いた強化学習(RL:Reinforcement Learning)や、推定された報酬関数を用いた最適制御問題(OC:Optimal Control )を解くことにより方策を推定する。ここで、式9におけるexp(θτ)は、以下に示す式10のように書き換えられる。そこで、方策推定部40は、累積報酬を大きくするように方策を推定してもよい。
 なお、以下の説明では、推定された報酬関数を用いた強化学習や、推定された報酬関数を用いた最適制御により方策を推定する問題のことを、逆強化学習に対する用語として順問題と記すこともある。
 方策推定部40が方策を推定する方法(順問題を解く方法)は、状態遷移モデルを用いない手法(モデルフリーな方法)であれば、任意である。方策推定部40は、例えば、ソフトQ学習により方策を推定してもよい。Q学習は、状態sのときに行動aを行った場合の累積報酬を返却する関数である行動価値関数Q(s,a)(Q関数とも言う。)を求める方法である。Q学習では、行動aを示す値に離散値が用いられ、Q関数がテーブル(表)形式で実装される。なお、Q学習のQ関数をディープニューラルネットワークで表したQネットワークが用いられてもよい。
 なお、本実施形態では、現状よりもより適切な方策が推定できればよいため、方策推定部40は、必ずしも収束するまで上記Q関数の更新処理を行う必要はない。そのため、方策推定部40は、最適な評価値(例えば、Q値)が収束する前に、方策を推定する処理を終了してもよい。言い換えると、方策推定部40は、評価値(例えば、Q値)が予め定めた条件よりも増加した場合に、方策を推定する処理を終了してもよい。予め定めた条件として、具体的な増加の値や割合などが設定される。
 一方、Q学習では、上述するように、行動aを示す値に離散値が用いられる。そこで、行動aを示す値に連続値を用いることができるように、方策推定部40は、ソフトアクタークリティック(Soft Actor-Critic )により、方策を推定してもよい。
 このように、方策が推定された後、報酬関数推定部30は、推定された方策を新たなサンプリング方策とし、このサンプリング方策に基づき生成された意思決定履歴のサンプルを用いて報酬関数を推定する。以降、報酬関数推定部30が、報酬関数が収束したと判断するまで、上記処理が繰り返される。
 出力部50は、推定された報酬関数および方策を出力する。
 入力部20と、報酬関数推定部30と、方策推定部40と、出力部50とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit))によって実現される。
 例えば、プログラムは、学習装置100が備える記憶部10に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部20、報酬関数推定部30、方策推定部40および出力部50として動作してもよい。また、学習装置100の機能がSaaS(Software as a Service )形式で提供されてもよい。
 入力部20と、報酬関数推定部30と、方策推定部40と、出力部50とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
 また、学習装置100の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 次に、本実施形態の学習装置100の動作を説明する。図3は、本実施形態の学習装置100の動作例を示す説明図である。入力部20は、対象者の意思決定履歴Dを入力する(ステップS11)。方策推定部40は、方策π(τ)を初期化する(ステップS12)。ここでは、方策推定部40は、一様分布として方策π(τ)を初期化する。以下、予め定めた条件を満たすまで、ステップS13からステップS16までの処理が繰り返される。なお、図3では、繰り返し回数をIとして説明する。
 報酬関数推定部30は、方策π(τ)から意思決定履歴のサンプルDを生成する(ステップS13)。報酬関数推定部30は、すでに生成されたサンプルDsampに対して、生成されたサンプルDを付け加える(ステップS14)。報酬関数推定部30は、付け加えられたサンプルDsampを用いて、多重重点サンプリングにより報酬関数θを更新する(ステップS15)。そして、方策推定部40は、更新された報酬関数θにより順問題を解くことで、方策π(τ)を更新する(ステップS16)。そして、出力部50は、推定された報酬関数θおよび方策π(τ)を出力する(ステップS17)。
 なお、図3では、相対エントロピー逆強化学習の枠組みで誘導サンプリング方策を逐次推定する処理を示していることから、図3に例示するアルゴリズムのことを、誘導相対エントロピー逆強化学習アルゴリズムということができる。
 図4は、本実施形態の学習装置100の他の動作例を示す説明図である。報酬関数推定部30は、多重重点サンプリングにより、対象者の意思決定履歴からサンプリング方策に基づき生成された意思決定履歴のサンプルを用いて報酬関数を推定する(ステップS21)。方策推定部40は、推定された報酬関数を用いた順問題を解くことにより方策を推定する(ステップS22)。そして、報酬関数推定部30は、推定された方策を新たなサンプリング方策とし、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いて報酬関数を推定する(ステップS23)。以降、報酬関数が収束した場合(ステップS24におけるYes)、処理を終了し、報酬関数が収束していない場合(ステップS24におけるNo)、ステップS22およびステップS23の処理が繰り返される。
 以上のように、本実施形態では、報酬関数推定部30が、対象者の意思決定履歴とサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定し、方策推定部40が、推定された報酬関数を用いた強化学習により方策を推定する。そして、報酬関数推定部30が、推定された方策を新たなサンプリング方策とし、対象者の意思決定履歴と、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定する。よって、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる。
 次に、本発明の概要を説明する。図5は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置80は、対象者(例えば、熟練者)の意思決定履歴(例えば、D)とサンプリング方策(例えば、π(τ))に基づき生成された意思決定履歴のサンプル(例えば、Dsamp)を用いた多重重点サンプリングにより報酬関数(例えばθ)を推定する報酬関数推定部81(例えば、報酬関数推定部30)と、推定された報酬関数を用いた強化学習により方策を推定する方策推定部82(例えば、方策推定部40)とを備えている。
 報酬関数推定部81は、方策推定部82により推定された方策を新たなサンプリング方策とし、そのサンプリング方策に基づき生成された意思決定履歴のサンプル(例えばD∪Dsamp)を用いた多重重点サンプリングにより報酬関数を推定する。
 そのような構成により、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる。
 その際、方策推定部82は、推定された報酬関数から得られる累積報酬を増加させる方策を推定してもよい。
 また、方策推定部82は、評価値(例えば、Q値)が予め定めた条件よりも増加した場合に、方策を推定する処理を終了してもよい。このように、収束するまで方策を最適化しなくてよいため、学習の効率を向上させることができる。
 また、報酬関数推定部81は、元のサンプリング方策に基づいてすでに生成された意思決定履歴のサンプル(例えば、Dsamp)に対して、新たなサンプリング方策に基づき生成された意思決定履歴のサンプル(例えばD)を加え、加えられた意思決定履歴のサンプル群(例えばD∪Dsamp)を用いて報酬関数を推定してもよい。そのような構成により、分散を小さくすることが可能になる。
 具体的には、報酬関数推定部81は、最尤推定に基づき報酬関数の重み係数ベクトルを更新することにより(例えば、上記に示す式6を用いて)報酬関数を推定してもよい。
 また、方策推定部82は、状態遷移モデルを用いない(すなわち、モデルフリーの)強化学習により、方策を決定すればよい。
 また、方策推定部82は、ソフトQ学習(例えば、行動を示す値が離散値の場合)またはソフトアクタークリティック(例えば、行動を示す値が連続値の場合)により方策を推定してもよい。
 また、報酬関数推定部81は、バランスヒューリスティック多重重点サンプリングにより報酬関数を推定してもよい。
 図6は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
 上述の学習装置80は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(学習プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
 なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
 また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定する報酬関数推定部と、推定された報酬関数を用いた強化学習により方策を推定する方策推定部とを備え、前記報酬関数推定部は、前記方策推定部により推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定することを特徴とする学習装置。
(付記2)方策推定部は、推定された報酬関数から得られる累積報酬を増加させる方策を推定する付記1記載の学習装置。
(付記3)方策推定部は、評価値が予め定めた条件よりも増加した場合に、方策を推定する処理を終了する付記1または付記2記載の学習装置。
(付記4)報酬関数推定部は、元のサンプリング方策に基づいてすでに生成された意思決定履歴のサンプルに対して、新たなサンプリング方策に基づき生成された意思決定履歴のサンプルを加え、加えられた意思決定履歴のサンプル群を用いて報酬関数を推定する付記1から付記3のうちのいずれか1つに記載の学習装置。
(付記5)報酬関数推定部は、最尤推定に基づき報酬関数の重み係数ベクトルを更新することにより報酬関数を推定する付記1から付記4のうちのいずれか1つに記載の学習装置。
(付記6)方策推定部は、状態遷移モデルを用いない強化学習により、方策を決定する付記1から付記5のうちのいずれか1つに記載の学習装置。
(付記7)方策推定部は、ソフトQ学習またはソフトアクタークリティックにより方策を推定する付記1から付記6のうちのいずれか1つに記載の学習装置。
(付記8)報酬関数推定部は、バランスヒューリスティック多重重点サンプリングにより報酬関数を推定する付記1から付記7のうちのいずれか1つに記載の学習装置。
(付記9)対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定し、推定された報酬関数を用いた強化学習により方策を推定し、推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定することを特徴とする学習方法。
(付記10)推定された報酬関数から得られる累積報酬を増加させる方策を推定する付記9記載の学習方法。
(付記11)コンピュータに、対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定する報酬関数推定処理、および、推定された報酬関数を用いた強化学習により方策を推定する方策推定処理を実行させ、前記報酬関数推定処理で、前記方策推定処理で推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定させるための学習プログラム。
(付記12)コンピュータに、方策推定処理で、推定された報酬関数から得られる累積報酬を増加させる方策を推定させる付記11記載の学習プログラム。
 10 記憶部
 20 入力部
 30 報酬関数推定部
 40 方策推定部
 50 出力部

Claims (12)

  1.  対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定する報酬関数推定部と、
     推定された報酬関数を用いた強化学習により方策を推定する方策推定部とを備え、
     前記報酬関数推定部は、前記方策推定部により推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定する
     ことを特徴とする学習装置。
  2.  方策推定部は、推定された報酬関数から得られる累積報酬を増加させる方策を推定する
     請求項1記載の学習装置。
  3.  方策推定部は、評価値が予め定めた条件よりも増加した場合に、方策を推定する処理を終了する
     請求項1または請求項2記載の学習装置。
  4.  報酬関数推定部は、元のサンプリング方策に基づいてすでに生成された意思決定履歴のサンプルに対して、新たなサンプリング方策に基づき生成された意思決定履歴のサンプルを加え、加えられた意思決定履歴のサンプル群を用いて報酬関数を推定する
     請求項1から請求項3のうちのいずれか1項に記載の学習装置。
  5.  報酬関数推定部は、最尤推定に基づき報酬関数の重み係数ベクトルを更新することにより報酬関数を推定する
     請求項1から請求項4のうちのいずれか1項に記載の学習装置。
  6.  方策推定部は、状態遷移モデルを用いない強化学習により、方策を決定する
     請求項1から請求項5のうちのいずれか1項に記載の学習装置。
  7.  方策推定部は、ソフトQ学習またはソフトアクタークリティックにより方策を推定する
     請求項1から請求項6のうちのいずれか1項に記載の学習装置。
  8.  報酬関数推定部は、バランスヒューリスティック多重重点サンプリングにより報酬関数を推定する
     請求項1から請求項7のうちのいずれか1項に記載の学習装置。
  9.  対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定し、
     推定された報酬関数を用いた強化学習により方策を推定し、
     推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定する
     ことを特徴とする学習方法。
  10.  推定された報酬関数から得られる累積報酬を増加させる方策を推定する
     請求項9記載の学習方法。
  11.  コンピュータに、
     対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定する報酬関数推定処理、および、
     推定された報酬関数を用いた強化学習により方策を推定する方策推定処理を実行させ、
     前記報酬関数推定処理で、前記方策推定処理で推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定させる
     ための学習プログラム。
  12.  コンピュータに、
     方策推定処理で、推定された報酬関数から得られる累積報酬を増加させる方策を推定させる
     請求項11記載の学習プログラム。
PCT/JP2019/033864 2019-08-29 2019-08-29 学習装置、学習方法および学習プログラム WO2021038781A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/033864 WO2021038781A1 (ja) 2019-08-29 2019-08-29 学習装置、学習方法および学習プログラム
JP2021541890A JP7315007B2 (ja) 2019-08-29 2019-08-29 学習装置、学習方法および学習プログラム
US17/637,138 US20220343180A1 (en) 2019-08-29 2019-08-29 Learning device, learning method, and learning program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/033864 WO2021038781A1 (ja) 2019-08-29 2019-08-29 学習装置、学習方法および学習プログラム

Publications (1)

Publication Number Publication Date
WO2021038781A1 true WO2021038781A1 (ja) 2021-03-04

Family

ID=74683394

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/033864 WO2021038781A1 (ja) 2019-08-29 2019-08-29 学習装置、学習方法および学習プログラム

Country Status (3)

Country Link
US (1) US20220343180A1 (ja)
JP (1) JP7315007B2 (ja)
WO (1) WO2021038781A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113104050A (zh) * 2021-04-07 2021-07-13 天津理工大学 一种基于深度强化学习的无人驾驶端到端决策方法
WO2023188061A1 (ja) * 2022-03-30 2023-10-05 日本電気株式会社 トレーニング支援装置、トレーニング支援方法、トレーニング支援プログラム、学習装置、学習方法、および学習プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7334796B2 (ja) * 2019-11-18 2023-08-29 日本電気株式会社 最適化装置、最適化方法、プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6284472B2 (ja) 2011-06-02 2018-02-28 サポーテッド インテリジェンス、エルエルシー 意思決定機会の評価方法及びシステム
JP5815458B2 (ja) 2012-04-20 2015-11-17 日本電信電話株式会社 報酬関数推定装置、報酬関数推定方法、およびプログラム
CN106575382B (zh) 2014-08-07 2021-12-21 学校法人冲绳科学技术大学院大学学园 估计对象行为的计算机方法和系统、预测偏好的系统和介质
US10546248B2 (en) 2014-12-31 2020-01-28 Supported Intelligence, LLC System and method for defining and calibrating a sequential decision problem using historical data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
METELLI, ALBERTO MARIA ET AL.: "Policy Optimization via Importance Sampling", ARXIV, 17 September 2018 (2018-09-17), pages 1 - 30, XP080918000, Retrieved from the Internet <URL:https://arxiv.org/pdf/1809.06098.pdf> [retrieved on 20191028] *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113104050A (zh) * 2021-04-07 2021-07-13 天津理工大学 一种基于深度强化学习的无人驾驶端到端决策方法
CN113104050B (zh) * 2021-04-07 2022-04-12 天津理工大学 一种基于深度强化学习的无人驾驶端到端决策方法
WO2023188061A1 (ja) * 2022-03-30 2023-10-05 日本電気株式会社 トレーニング支援装置、トレーニング支援方法、トレーニング支援プログラム、学習装置、学習方法、および学習プログラム

Also Published As

Publication number Publication date
JPWO2021038781A1 (ja) 2021-03-04
JP7315007B2 (ja) 2023-07-26
US20220343180A1 (en) 2022-10-27

Similar Documents

Publication Publication Date Title
WO2021038781A1 (ja) 学習装置、学習方法および学習プログラム
CN111092823B (zh) 一种自适应调节拥塞控制初始窗口的方法和系统
CN112486690B (zh) 一种适用于工业物联网的边缘计算资源分配方法
CN110413754B (zh) 对话(中)奖励评估和对话方法、介质、装置和计算设备
CN107948083B (zh) 一种基于增强学习的sdn数据中心拥塞控制方法
CN110008332B (zh) 通过强化学习提取主干词的方法及装置
CN113537630A (zh) 业务预测模型的训练方法及装置
CN110471768B (zh) 一种基于fastPCA-ARIMA的负载预测方法
US20230252355A1 (en) Systems and methods for knowledge transfer in machine learning
CN112380006A (zh) 一种数据中心资源分配方法及装置
CN111510473B (zh) 访问请求处理方法、装置、电子设备和计算机可读介质
CN114039916B (zh) 面向实时视频质量优化的深度混合模型流量控制方法、装置和存储介质
JP7327512B2 (ja) 学習装置、学習方法および学習プログラム
CN106936611A (zh) 一种预测网络状态的方法及装置
CN115150335A (zh) 一种基于深度强化学习的最优流量分割的方法和系统
CN115220818A (zh) 基于深度强化学习的实时依赖型任务卸载方法
CN114584951A (zh) 一种基于多智能体ddqn的联合计算卸载和资源分配方法
JP2022172503A (ja) 衛星観測計画立案システム、衛星観測計画立案方法、および衛星観測計画立案プログラム
US20220019871A1 (en) Method for Adapting a Software Application Executed in a Gateway
US20230419177A1 (en) Information processing method, information processing system, and recording medium
CN116954156B (zh) 数控加工的工艺路线规划方法、装置、设备及介质
CN116805163B (zh) 多智能体环境中持续学习方法、设备、存储介质及产品
CN114520772B (zh) 一种5g切片资源调度方法
US11973695B2 (en) Information processing apparatus and information processing method
WO2022230038A1 (ja) 学習装置、学習方法および学習プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19942668

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021541890

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19942668

Country of ref document: EP

Kind code of ref document: A1