JPWO2020121494A1 - 演算装置、アクション決定方法、及び制御プログラム - Google Patents
演算装置、アクション決定方法、及び制御プログラム Download PDFInfo
- Publication number
- JPWO2020121494A1 JPWO2020121494A1 JP2020559651A JP2020559651A JPWO2020121494A1 JP WO2020121494 A1 JPWO2020121494 A1 JP WO2020121494A1 JP 2020559651 A JP2020559651 A JP 2020559651A JP 2020559651 A JP2020559651 A JP 2020559651A JP WO2020121494 A1 JPWO2020121494 A1 JP WO2020121494A1
- Authority
- JP
- Japan
- Prior art keywords
- state
- action
- information
- degree
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
Abstract
Description
図1は、第1実施形態の演算装置の一例を示すブロック図である。図1において演算装置(アクション決定装置)10は、予測状態決定部11と、ばらつき度算出部12と、候補アクション選択部13とを有している。
第2実施形態は、より具体的な実施形態に関する。
図2は、第2実施形態の演算装置30を含む制御装置20の一例を示すブロック図である。図2には、制御装置20の他に、指令実行装置50及び制御対象60が図示されている。
制御装置20は、状態遷移情報(後述する)に基づき第1状態である制御対象60に関して、アクションを実行した後の制御対象60の第2状態を推定する。制御装置20は、複数の候補アクションに関して、それぞれ、第2状態を推定する処理を実行する。その後、制御装置20は、報酬情報を用いて、推定した各第2状態に関する報酬程度を算出する。制御装置20は、複数の候補アクションの中から、算出した報酬程度が上位の候補アクションのうちの1つアクションを選択する。制御装置20は、複数の候補アクションの中から、算出した報酬程度が最も大きなアクションを1つ選択してもよい。制御装置20は、選択したアクションを示す制御指令を、指令実行装置50へ出力する。
制御装置20は、処理フェーズ1にて蓄積された履歴情報を用いて、状態遷移情報を更新する(または、作成する)。状態遷移情報を、ニューラルネットワークを用いて作成する場合に、制御装置20は、上述したような履歴情報に含まれているデータを訓練データとして用いて、当該状態遷移情報を作成する。後述するように、制御装置20は、たとえば、構成が相互に異なっているニューラルネットワークを用いて、複数の状態遷移情報を作成する。
制御装置20は、複数の候補アクションについて、候補アクションをそれぞれ対象に関して施した後における第2状態を、状態遷移情報に基づき予測する。制御装置20は、相互に異なる状態遷移情報(すなわち、各遷移情報ユニット)を用いることによって、複数の第2状態を予測する。説明の便宜上、第2状態と、予測された第2状態とを区別するため、予測された第2状態を「擬似状態」と表す。すなわち、制御装置20は、相互に異なる状態遷移情報(すなわち、各遷移情報ユニット)を用いることによって、擬似状態を作成する。
図2において制御装置20は、演算装置30と、記憶装置40とを有している。演算装置30は、状態推定部31と、状態遷移情報更新部(状態遷移情報作成部)32と、制御指令演算部33と、予測状態決定部11と、ばらつき度算出部12と、候補アクション選択部13とを有している。記憶装置40は、履歴情報記憶部41と、状態遷移情報記憶部42と、方策情報記憶部43とを有している。
状態推定部31は、制御対象60の第1状態を表す観測値(パラメタ値、センサー情報)を受け取る。状態推定部31は、受け取ったセンサー情報と、状態遷移情報とに基づき、第1状態である制御対象60に関してアクションを実行した後の制御対象60の第2状態を推定する。状態推定部31は、複数の候補アクションにおけるアクションに関して、それぞれ、第2状態を推定する処理を実行する。すなわち、状態推定部31は、各候補アクションに関して擬似状態を作成する。
説明の便宜上、ニューラルネットワーク等の統計的な手法(所定の処理手順)を用いて状態遷移情報を作成する例を用いて、処理フェーズ2における処理を説明する。所定の処理手順は、例えば、ニューラルネット等の機械学習法に従った手順である。
予測状態決定部11は、複数の候補アクションについて、候補アクションをそれぞれ対象に関して施した後における第2状態を、状態遷移情報に基づき予測する。予測状態決定部11は、相互に異なる状態遷移情報(すなわち、各遷移情報ユニット)を用いることによって、複数の擬似状態を作成する。
以上の構成を有する演算装置30の処理動作の一例について説明する。図3は、第2実施形態の演算装置の処理動作の一例を示すフローチャートである。図3に示すフローチャートにおいて、ステップS101は、上記の処理フェーズ1に対応し、ステップS102は、処理フェーズ2に対応し、ステップS103,S104は、処理フェーズ3に対応する。
すなわち、バッチ学習は、ある程度(説明の便宜上、「第1蓄積程度」と称する)の履歴情報が蓄積されてから、該履歴情報を用いて方策情報を更新(または、作成)する処理を表す。第1蓄積程度は、履歴が複数であることを表している。ただし、演算装置30における処理は、上述したバッチ学習に限定されず、例えば、方策情報は、オンライン学習によって更新(または、作成)されてもよい、ミニバッチ学習によって更新(または、作成)されてもよい。
第3実施形態は、より具体的な実施形態に関する。すなわち、第3実施形態は、第2実施形態のバリエーションに関する。
図4は、第3実施形態の演算装置80を含む制御装置70の一例を示すブロック図である。図4には、制御装置70の他に、図2と同様に指令実行装置50及び制御対象60が図示されている。
制御装置70は、第1状態である制御対象60に関して、第1状態と方策情報とに基づきアクションを決定し、決定したアクションを示す制御指令を、指令実行装置50へ出力する。
制御装置70は、処理フェーズ1にて蓄積された履歴情報を用いて、状態遷移情報を更新する(または、作成する)。状態遷移情報を、ニューラルネットワークを用いて作成する場合に、制御装置70は、上述したような履歴情報に含まれているデータを訓練データとして用いて、当該状態遷移情報を作成する。後述するように、制御装置70は、たとえば、構成が相互に異なっているニューラルネットワークを用いて、複数の状態遷移情報を作成する。
制御装置70は、状態遷移情報に基づき、第1疑似状態にて可能な複数の「候補アクション」のそれぞれに関して複数の「予測状態」を決定する。制御装置70は、相互に異なる状態遷移情報(すなわち、各遷移情報ユニット)を用いることによって、複数の第2疑似状態を作成する。
図4において制御装置70は、演算装置80と、記憶装置90とを有している。演算装置30は、状態推定部81と、状態遷移情報更新部(状態遷移情報作成部)82と、制御指令演算部83と、予測状態決定部11と、ばらつき度算出部12と、候補アクション選択部13とを有している。記憶装置90は、履歴情報記憶部91と、状態遷移情報記憶部92と、方策情報記憶部93とを有している。以降、制御装置70の構成を処理フェーズ毎に説明する。
状態推定部81は、制御対象60の状態を表す観測値(パラメタ値、センサー情報)を受け取る。状態推定部81は、受け取った観測値(パラメタ値、センサー情報)に基づき、制御対象60の状態を推定する。
説明の便宜上、ニューラルネットワーク等の統計的な手法(所定の処理手順)を用いて状態遷移情報を作成する例を用いて、処理フェーズ2に対応する制御装置70の構成について説明する。所定の処理手順は、例えば、ニューラルネット等の機械学習法に従った手順である。
制御指令演算部83は、第1疑似状態にて可能な複数の候補アクションをそれぞれ示す複数の制御指令を予測状態決定部11へ出力する。
以上の構成を有する演算装置80の処理動作の一例について説明する。図5は、第3実施形態の演算装置の処理動作の一例を示すフローチャートである。図5に示すフローチャートにおいて、ステップS201は、上記の処理フェーズ1に対応し、ステップS202は、処理フェーズ2に対応し、ステップS203,S204は、処理フェーズ3に対応する。
図6は、演算装置のハードウェア構成例を示す図である。図6において演算装置100は、プロセッサ101と、メモリ102とを含んでいる。第1実施形態及び第2実施形態で説明した演算装置10,30,80の状態推定部31,81と、状態遷移情報更新部(状態遷移情報作成部)32,82と、制御指令演算部33,83と、予測状態決定部11と、ばらつき度算出部12と、候補アクション選択部13とは、プロセッサ101がメモリ102に記憶されたプログラムを読み込んで実行することにより実現されてもよい。プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non−transitory computer readable medium)を用いて格納され、演算装置10,30,80に供給することができる。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によって演算装置10,30,80に供給されてもよい。
11 予測状態決定部
12 ばらつき度算出部
13 候補アクション選択部
20,70 制御装置
31,81 状態推定部
32,82 状態遷移情報更新部(状態遷移情報作成部)
33,83 制御指令演算部
40,90 記憶装置
41,91 履歴情報記憶部
42,92 状態遷移情報記憶部
43,93 方策情報記憶部
50 指令実行装置
60 制御対象
Claims (10)
- 第1タイミングでの第1状態と、前記第1タイミング以降の第2タイミングでの第2状態との関係性を表す遷移情報を複数用いて、第1状態にて可能な複数の候補アクションのそれぞれに関して複数の第2状態を決定する決定手段と、
各前記候補アクションに関して、前記複数の第2状態のばらつき度を算出する算出手段と、
前記ばらつき度に基づき、前記複数の候補アクションから一部の候補アクションを選択する選択手段と、
を具備する演算装置。 - 前記選択手段は、前記複数の候補アクションの中から、前記一部の候補アクションとして、前記ばらつき度が上位の前記候補アクションを選択する、
請求項1に記載の演算装置。 - 前記選択手段は、前記一部の候補アクションとして、前記ばらつき度が最大の前記候補アクションを選択する、
請求項1に記載の演算装置。 - 2つの状態と、該2つの状態間におけるアクションとが関連付けされたセットを含む履歴情報に基づき、所定の処理手順に従い、前記遷移情報を作成する作成手段をさらに具備する、
請求項1乃至請求項3のいずれかに記載の演算装置。 - 前記所定の処理手順は、ニューラルネットを算出する手順である、
請求項4に記載の演算装置。 - 前記作成手段は、複数の前記遷移情報を、互いに構成の異なる複数の前記ニューラルネットを用いて作成する、
請求項5に記載の演算装置。 - 前記作成手段は、複数の前記遷移情報を、パラメタの初期値が異なる複数の前記ニューラルネットを用いて作成する、
請求項5に記載の演算装置。 - 複数の前記遷移情報を、前記履歴情報のうちの互いに異なるセットを複数の前記ニューラルネットに入力することによって作成する、
請求項5に記載の演算装置。 - 情報処理装置によって、第1タイミングでの第1状態と、前記第1タイミング以降の第2タイミングでの第2状態との関係性を表す遷移情報を複数用いて、第1状態にて可能な複数の候補アクションのそれぞれに関して複数の第2状態を決定し、
各前記候補アクションに関して、前記複数の第2状態のばらつき度を算出し、
前記ばらつき度に基づき、前記複数の候補アクションから一部の候補アクションを選択する、
アクション決定方法。 - 第1タイミングでの第1状態と、前記第1タイミング以降の第2タイミングでの第2状態との関係性を表す遷移情報を複数用いて、第1状態にて可能な複数の候補アクションのそれぞれに関して複数の第2状態を決定し、
各前記候補アクションに関して、前記複数の第2状態のばらつき度を算出し、
前記ばらつき度に基づき、前記複数の候補アクションから一部の候補アクションを選択する、
処理を、演算装置に実行させる制御プログラムを格納する非一時的なコンピュータ可読媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/045947 WO2020121494A1 (ja) | 2018-12-13 | 2018-12-13 | 演算装置、アクション決定方法、及び制御プログラムを格納する非一時的なコンピュータ可読媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020121494A1 true JPWO2020121494A1 (ja) | 2021-10-07 |
JP7196935B2 JP7196935B2 (ja) | 2022-12-27 |
Family
ID=71075454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020559651A Active JP7196935B2 (ja) | 2018-12-13 | 2018-12-13 | 演算装置、アクション決定方法、及び制御プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220027708A1 (ja) |
JP (1) | JP7196935B2 (ja) |
WO (1) | WO2020121494A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11645498B2 (en) * | 2019-09-25 | 2023-05-09 | International Business Machines Corporation | Semi-supervised reinforcement learning |
CN113112016A (zh) * | 2021-04-07 | 2021-07-13 | 北京地平线机器人技术研发有限公司 | 用于强化学习过程的动作输出方法、网络训练方法及装置 |
-
2018
- 2018-12-13 JP JP2020559651A patent/JP7196935B2/ja active Active
- 2018-12-13 WO PCT/JP2018/045947 patent/WO2020121494A1/ja active Application Filing
- 2018-12-13 US US17/311,752 patent/US20220027708A1/en active Pending
Non-Patent Citations (2)
Title |
---|
HAARNOJA, TUOMAS ET AL.: "Reinforcement Learning with Deep Energy-Based Policies", ARXIV [ONLINE], vol. [retrieved on 2019.01.22], JPN6019003257, 21 July 2017 (2017-07-21), ISSN: 0004812946 * |
齋藤雅矩ほか: "エージェントの行動履歴の活用によるQ-learningの学習効率向上", 電気学会研究会資料, JPN6019003254, 7 December 2014 (2014-12-07), JP, pages 29 - 34, ISSN: 0004812945 * |
Also Published As
Publication number | Publication date |
---|---|
US20220027708A1 (en) | 2022-01-27 |
JP7196935B2 (ja) | 2022-12-27 |
WO2020121494A1 (ja) | 2020-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230350355A1 (en) | Heuristic method of automated and learning control, and building automation systems thereof | |
Yan et al. | Data-driven load frequency control for stochastic power systems: A deep reinforcement learning method with continuous action search | |
JP6513015B2 (ja) | 機械の動作を制御する方法、および機械の動作を反復的に制御する制御システム | |
JP5768834B2 (ja) | プラントモデル管理装置及び方法 | |
KR101963686B1 (ko) | 타겟 시스템 제어 | |
CN104317195B (zh) | 一种基于改进极限学习机的非线性逆模型控制方法 | |
JP6529096B2 (ja) | シミュレートシステム、シミュレート方法およびシミュレート用プログラム | |
JP7196935B2 (ja) | 演算装置、アクション決定方法、及び制御プログラム | |
JP2018528511A (ja) | 生産システムにおける出力効率の最適化 | |
JP6902487B2 (ja) | 機械学習システム | |
KR20210092310A (ko) | 고도로 공선적인 응답 공간에서의 처방적 분석 | |
Li et al. | Experience-based rule base generation and adaptation for fuzzy interpolation | |
CN116627027A (zh) | 一种基于改进型pid最优鲁棒性控制方法 | |
CN109657800A (zh) | 基于参数噪声的强化学习模型优化方法及装置 | |
CN107367929B (zh) | 更新q值矩阵的方法、存储介质和终端设备 | |
JP2019219741A5 (ja) | ||
Lu et al. | Multivariable self-organizing fuzzy logic control using dynamic performance index and linguistic compensators | |
CN107315572B (zh) | 建筑机电系统的控制方法、存储介质和终端设备 | |
KR102212384B1 (ko) | 복합 시스템들의 제어를 위한 무작위화된 강화 학습 | |
CN110908280A (zh) | 一种小车-二级倒立摆系统优化控制方法 | |
Perotto | Looking for the right time to shift strategy in the exploration-exploitation dilemma | |
CN111356959B (zh) | 用于计算机辅助地控制技术系统的方法 | |
JP7462905B2 (ja) | 制御装置、方法、プログラム及びシステム | |
CN107315573A (zh) | 建筑机电系统的控制方法、存储介质和终端设备 | |
CN117311171B (zh) | 用于多设备控制的图神经网络模型的训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210521 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221128 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7196935 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |