JPWO2019225011A1 - 学習装置、情報処理システム、学習方法、および学習プログラム - Google Patents
学習装置、情報処理システム、学習方法、および学習プログラム Download PDFInfo
- Publication number
- JPWO2019225011A1 JPWO2019225011A1 JP2020520991A JP2020520991A JPWO2019225011A1 JP WO2019225011 A1 JPWO2019225011 A1 JP WO2019225011A1 JP 2020520991 A JP2020520991 A JP 2020520991A JP 2020520991 A JP2020520991 A JP 2020520991A JP WO2019225011 A1 JPWO2019225011 A1 JP WO2019225011A1
- Authority
- JP
- Japan
- Prior art keywords
- state
- learning
- model
- equation
- physical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
10 記憶部
20 状態推定部
30 模倣学習部
100 学習装置
110 入力部
120 モデル設定部
130 パラメータ推定部
140 出力部
Claims (11)
- 強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態および当該状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定するモデル設定部と、
設定された前記モデルに基づき、前記状態を含む学習データを用いて強化学習を行うことにより、前記物理方程式のパラメータを推定するパラメータ推定部とを備えた
ことを特徴とする学習装置。 - パラメータ推定部は、設定されたモデルに基づき、状態および行動を含む学習データを用いて強化学習を行うことにより、物理方程式のパラメータを推定する
請求項1記載の学習装置。 - モデル設定部は、行動に起因する効果と、状態に起因する効果とを分けた物理方程式を設定する
請求項1または請求項2記載の学習装置。 - モデル設定部は、報酬関数をハミルトニアンに対応付けたモデルを設定する
請求項1から請求項3のうちのいずれか1項に記載の学習装置。 - 強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態および当該状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定するモデル設定部と、
設定された前記モデルに基づき、前記状態を含む学習データを用いて強化学習を行うことにより、前記物理方程式のパラメータを推定するパラメータ推定部と、
推定された物理方程式を用いて、入力された行動から状態を推定する状態推定部と、
前記入力された行動および推定された状態に基づいて模倣学習を行う模倣学習部とを備えた
ことを特徴とする情報処理システム。 - コンピュータが、強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態および当該状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定し、
前記コンピュータが、設定された前記モデルに基づき、前記状態を含む学習データを用いて強化学習を行うことにより、前記物理方程式のパラメータを推定する
ことを特徴とする学習方法。 - コンピュータが、設定されたモデルに基づき、状態および行動を含む学習データを用いて強化学習を行うことにより、物理方程式のパラメータを推定する
請求項6記載の学習方法。 - コンピュータが、推定された物理方程式を用いて、入力された行動から状態を推定し、
前記コンピュータが、前記入力された行動および推定された状態に基づいて模倣学習を行う
請求項6または請求項7記載の学習方法。 - コンピュータに、
強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態および当該状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定するモデル設定処理、および、
設定された前記モデルに基づき、前記状態を含む学習データを用いて強化学習を行うことにより、前記物理方程式のパラメータを推定するパラメータ推定処理
を実行させるための学習プログラム。 - コンピュータに、
パラメータ推定処理で、設定されたモデルに基づき、状態および行動を含む学習データを用いて強化学習を行うことにより、物理方程式のパラメータを推定させる
請求項9記載の学習プログラム。 - コンピュータに、
強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態および当該状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定するモデル設定処理、
設定された前記モデルに基づき、前記状態を含む学習データを用いて強化学習を行うことにより、前記物理方程式のパラメータを推定するパラメータ推定処理、
推定された物理方程式を用いて、入力された行動から状態を推定する状態推定処理、および、
前記入力された行動および推定された状態に基づいて模倣学習を行う模倣学習処理
を実行させるための学習プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/020185 WO2019225011A1 (ja) | 2018-05-25 | 2018-05-25 | 学習装置、情報処理システム、学習方法、および学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019225011A1 true JPWO2019225011A1 (ja) | 2021-05-13 |
JP6992891B2 JP6992891B2 (ja) | 2022-01-13 |
Family
ID=68617259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020520991A Active JP6992891B2 (ja) | 2018-05-25 | 2018-05-25 | 学習装置、情報処理システム、学習方法、および学習プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210201138A1 (ja) |
JP (1) | JP6992891B2 (ja) |
WO (1) | WO2019225011A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650394B (zh) * | 2020-12-24 | 2023-04-25 | 深圳前海微众银行股份有限公司 | 智能设备控制方法、设备及可读存储介质 |
CN114454160B (zh) * | 2021-12-31 | 2024-04-16 | 中国人民解放军国防科技大学 | 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统 |
CN117313826B (zh) * | 2023-11-30 | 2024-02-23 | 安徽大学 | 一种基于强化学习的任意角度倒立摆模型训练方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3022167C (en) * | 2016-05-09 | 2021-07-20 | 1Qb Information Technologies Inc. | Method and system for improving a policy for a stochastic control problem |
US10275721B2 (en) * | 2017-04-19 | 2019-04-30 | Accenture Global Solutions Limited | Quantum computing machine learning module |
US20190019082A1 (en) * | 2017-07-12 | 2019-01-17 | International Business Machines Corporation | Cooperative neural network reinforcement learning |
US20190272465A1 (en) * | 2018-03-01 | 2019-09-05 | International Business Machines Corporation | Reward estimation via state prediction using expert demonstrations |
-
2018
- 2018-05-25 US US17/057,394 patent/US20210201138A1/en active Pending
- 2018-05-25 JP JP2020520991A patent/JP6992891B2/ja active Active
- 2018-05-25 WO PCT/JP2018/020185 patent/WO2019225011A1/ja active Application Filing
Non-Patent Citations (3)
Title |
---|
DANIEL CRAWFORD ET AL.: "Reinforcement Learning Using Quantum Boltzmann Machines", ARXIV:1612.05695V2, JPN6021044232, 25 December 2016 (2016-12-25), ISSN: 0004636315 * |
五十嵐治一,石原聖司: "方策勾配法を用いた運動方程式中のパラメータ学習", 第21回日本ロボット学会学術講演会予稿集CD−ROM 2003年, JPN6018032440, 20 September 2003 (2003-09-20), JP, pages 1 - 3, ISSN: 0004636313 * |
坂井直樹,川辺直人,原 正之,豊田 希,藪田哲郎: "強化学習を用いたスポーツロボットの大車輪運動の獲得とその行動形態の考察", 計測自動制御学会論文集, vol. 第46巻 ,第3号, JPN6018032441, 31 March 2010 (2010-03-31), JP, pages 178 - 187, ISSN: 0004636314 * |
Also Published As
Publication number | Publication date |
---|---|
WO2019225011A1 (ja) | 2019-11-28 |
US20210201138A1 (en) | 2021-07-01 |
JP6992891B2 (ja) | 2022-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110235148B (zh) | 训练动作选择神经网络 | |
US11868882B2 (en) | Training action selection neural networks using apprenticeship | |
JP6992891B2 (ja) | 学習装置、情報処理システム、学習方法、および学習プログラム | |
JP2013242761A (ja) | マルコフ決定過程システム環境下における方策パラメータを更新するための方法、並びに、その制御器及び制御プログラム | |
US20210158162A1 (en) | Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space | |
CN110073376A (zh) | 信息处理装置和信息处理方法 | |
JP2022550512A (ja) | マルチエージェントシミュレーション | |
EP3612356B1 (en) | Determining control policies for robots with noise-tolerant structured exploration | |
JPWO2020065808A1 (ja) | 情報処理装置及びシステム、並びに、モデル適応方法及びプログラム | |
Darapaneni et al. | Autonomous car driving using deep learning | |
JP7378836B2 (ja) | 総和確率的勾配推定方法、装置、およびコンピュータプログラム | |
JP7004074B2 (ja) | 学習装置、情報処理システム、学習方法、および学習プログラム | |
CN116968024A (zh) | 获取用于生成形封闭抓取位姿的控制策略的方法、计算设备和介质 | |
Fukuchi et al. | Application of instruction-based behavior explanation to a reinforcement learning agent with changing policy | |
JP7111178B2 (ja) | 学習装置、学習方法、および学習プログラム | |
KR102261055B1 (ko) | 클릭율 최대화를 위한 이미지 디자인 파라미터 최적화 방법 및 시스템 | |
Behzadan et al. | Trolleymod v1. 0: An open-source simulation and data-collection platform for ethical decision making in autonomous vehicles | |
JP2019219756A (ja) | 制御装置、制御方法、プログラム、ならびに、情報記録媒体 | |
KR20220090732A (ko) | 리스크 척도를 나타내는 파라미터에 기반하여 훈련된 모델을 사용하여, 주어진 상황에 대한 디바이스의 행동을 결정하는 방법 및 시스템 | |
JP2008180784A (ja) | シミュレーション装置 | |
JPWO2020115903A1 (ja) | 学習装置、学習方法、および学習プログラム | |
JP7340055B2 (ja) | 強化学習ポリシを訓練する方法 | |
Leofante et al. | Combining static and runtime methods to achieve safe standing-up for humanoid robots | |
TWI811156B (zh) | 機器人的運動步態的過渡方法 | |
Tziortziotis et al. | Value function approximation through sparse bayesian modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201105 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6992891 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |