JPWO2020022123A1 - 行動最適化装置、方法およびプログラム - Google Patents
行動最適化装置、方法およびプログラム Download PDFInfo
- Publication number
- JPWO2020022123A1 JPWO2020022123A1 JP2020532306A JP2020532306A JPWO2020022123A1 JP WO2020022123 A1 JPWO2020022123 A1 JP WO2020022123A1 JP 2020532306 A JP2020532306 A JP 2020532306A JP 2020532306 A JP2020532306 A JP 2020532306A JP WO2020022123 A1 JPWO2020022123 A1 JP WO2020022123A1
- Authority
- JP
- Japan
- Prior art keywords
- environment
- data
- state
- action
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A47—FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
- A47L—DOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
- A47L9/00—Details or accessories of suction cleaners, e.g. mechanical means for controlling the suction or for effecting pulsating action; Storing devices specially adapted to suction cleaners or parts thereof; Carrying-vehicles specially adapted for suction cleaners
- A47L9/28—Installation of the electric equipment, e.g. adaptation or attachment to the suction cleaner; Controlling suction cleaners by electric means
- A47L9/2805—Parameters or conditions being sensed
- A47L9/281—Parameters or conditions being sensed the amount or condition of incoming dirt or dust
- A47L9/2815—Parameters or conditions being sensed the amount or condition of incoming dirt or dust using optical detectors
-
- A—HUMAN NECESSITIES
- A47—FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
- A47L—DOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
- A47L11/00—Machines for cleaning floors, carpets, furniture, walls, or wall coverings
- A47L11/40—Parts or details of machines not provided for in groups A47L11/02 - A47L11/38, or not restricted to one of these groups, e.g. handles, arrangements of switches, skirts, buffers, levers
- A47L11/4011—Regulation of the cleaning machine by electric means; Control systems and remote control systems therefor
-
- A—HUMAN NECESSITIES
- A47—FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
- A47L—DOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
- A47L9/00—Details or accessories of suction cleaners, e.g. mechanical means for controlling the suction or for effecting pulsating action; Storing devices specially adapted to suction cleaners or parts thereof; Carrying-vehicles specially adapted for suction cleaners
- A47L9/28—Installation of the electric equipment, e.g. adaptation or attachment to the suction cleaner; Controlling suction cleaners by electric means
- A47L9/2805—Parameters or conditions being sensed
- A47L9/281—Parameters or conditions being sensed the amount or condition of incoming dirt or dust
-
- A—HUMAN NECESSITIES
- A47—FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
- A47L—DOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
- A47L9/00—Details or accessories of suction cleaners, e.g. mechanical means for controlling the suction or for effecting pulsating action; Storing devices specially adapted to suction cleaners or parts thereof; Carrying-vehicles specially adapted for suction cleaners
- A47L9/28—Installation of the electric equipment, e.g. adaptation or attachment to the suction cleaner; Controlling suction cleaners by electric means
- A47L9/2805—Parameters or conditions being sensed
- A47L9/2826—Parameters or conditions being sensed the condition of the floor
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/62—Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
- F24F11/63—Electronic processing
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/048—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Mechanical Engineering (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Automation & Control Theory (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Combustion & Propulsion (AREA)
- Fuzzy Systems (AREA)
- Chemical & Material Sciences (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Air Conditioning Control Device (AREA)
Abstract
Description
[一実施形態]
(実施例1)
(構成)
(1)システム
図1は、この発明の一実施形態に係る行動最適化装置1を含むシステムの全体構成の第1の例を示す図である。この例では、行動最適化装置1は、対象空間内の環境を制御するための行動として、空調の制御を最適化することが想定されている。このシステムは、行動最適化装置1と、当該行動最適化装置1とネットワークNWやケーブル等を介して間接的にまたは直接的に接続された、1以上の外部センサSs1,Ss2,...,Ssnまたはこれらを統括する統括装置SI(以降、これらをまとめて「センサシステムSS」と言う)と、空調システムASや清掃システムCSなどの施設内外に存在する施設管理システムMSとを含む。
(2−1)ハードウェア構成
図2は、図1に示した実施形態に係る行動最適化装置1のハードウェア構成の一例を示すブロック図である。行動最適化装置1は、例えばパーソナルコンピュータまたはサーバ装置からなり、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等のハードウェアプロセッサ20Aを有し、このハードウェアプロセッサ20Aに対し、入出力インタフェースユニット10と、プログラムメモリ20Bと、データメモリ30とを、バス40を介して接続したものとなっている。
図3は、図1に示した実施形態に係る行動最適化装置1のソフトウェア構成を、図2に示したハードウェア構成と関連付けて示したブロック図である。行動最適化装置1は、入出力インタフェースユニット10と、制御処理ユニット20と、データメモリ30とを備えている。
次に、以上のように構成された行動最適化装置1の各部による情報処理動作を説明する。
図4は、行動最適化装置1による環境データ取得の処理手順と処理内容の一例を示すフローチャートである。
図6は、行動最適化装置1による、あらかじめ設定された時系列分析方法を用いて環境データの予測を行う処理手順と処理内容の一例を示すフローチャートである。一実施形態では、環境予測部25が、時系列分析手法の1つである自己回帰移動平均(ARMA:Autoregressive Moving Average)モデル(例えば、沖本竜義著,「経済・ファイナンスデータの計量時系列分析」,株式会社朝倉書店,2017年9月10日第12刷発行,参照)を用いて、環境データの今後1日間の予測を行う。環境予測部25は、所定の時間間隔ごとに自動的に起動するようにしてもよいし、ユーザまたはオペレータからの指示の入力に応じて起動するようにしてもよい。一実施形態では、環境予測部25は、1日ごとに自動的に起動して以下のような処理を行う。
図7は、行動最適化装置1による、取得された環境データに対して時空間補間を行う処理手順と処理内容の一例を示すフローチャートである。一実施形態では、環境データ補間部24がこれらの処理を行う。
次に、GUIを介して入力される方針情報の取得について説明する。
図9は、行動最適化装置1のGUI管理部21によって提供される、種々の処理に関する指示(方針)を入力するためのGUIの一例として、図示しない表示部等に表示される方針入力画面210を示す。GUI管理部21は、このような方針入力画面210を介して、キーボード、マウス、タッチパネル等の入力デバイス(図示せず)を用いてユーザまたはオペレータが入力した方針指示を取り込むことができる。方針入力画面210は、状態、行動、報酬関数、再現手法、探索手法を入力するテキストボックス211〜215と、入力を終了する送信ボタン216とを有するが、これに限定されるものではない。
図10は、行動最適化装置1による方針データを生成する処理手順と処理内容の一例を示すフローチャートである。一実施形態では、方針管理部22が、GUI管理部21によって出力された方針情報を受け取り、方針情報に基づいて方針データを生成する。
図12は、行動最適化装置1による、対象空間内の環境を制御するための行動を変化させた際に環境がどのように変化するかについて過去データから学習する処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置1は、環境再現部27の制御の下、方針管理部22からの学習指示を受けて環境再現モデルの学習を開始する(学習フェーズ)。学習フェーズにおいて、環境再現部27は、環境再現モデル学習部として機能し、方針管理部22または方針データ記憶部32から方針情報を引数として取得し、全期間のデータを用いて、時刻tの状態sにおいて行動aを実施したときの次状態s’の予測を行う環境再現モデルの学習を行う。施設レイアウト変更が行われたら、そのたびに学習を行うようにしてもよい。
上記のように、環境再現部27は、学習処理において、拡張処理を施されたデータを用いることができる。
図14は、行動最適化装置1による、学習済みの環境再現モデルを用いて、指定時刻tの状態sで行動aを実施したときの次状態s’の予測(ここでは、「評価」とも言う)を行う処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置1は、環境再現部27の制御の下、行動探索部28からの評価指示を受けて評価処理を開始する(評価フェーズ)。
次に、GUIを介して入力される探索指示の取得について説明する。
図15は、行動最適化装置1のGUI管理部21によって提供される、行動探索に関する指示を入力するためのGUIの一例として、図示しない表示部等に表示される探索指示の入力画面220を示す。GUI管理部21は、このような探索指示入力画面220を介して、キーボード、マウス、タッチパネル等の入力デバイス(図示せず)を用いてユーザまたはオペレータが入力した探索指示を取り込むことができる。探索指示入力画面220は、開始時刻、終了時刻、方針データ、送信先を入力するテキストボックス221〜224と、種別を入力するラジオボタン225と、入力を終了する送信ボタン226を有するが、これに限定されるものではない。
図16は、行動最適化装置1による行動探索に使用される探索モデルを学習する処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置1は、行動探索部28の制御の下、GUI管理部21からの学習指示を受けて探索モデルの学習を開始する(学習フェーズ)。学習フェーズにおいて、行動探索部28は、探索モデル学習部として機能し、GUI管理部21から送信された情報を引数として取得し、指定期間のデータを用いて、各時刻tにおける状態sに対し最適な次状態s’へ遷移する行動aの予測を行う探索モデルの学習を行う。
図17は、行動最適化装置1による、学習済みの探索モデルを用いて、行動探索を行う処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置1は、行動探索部28の制御の下、GUI管理部21によって出力された評価指示を受けて評価処理を開始する(評価フェーズ)。例えば、行動探索部28が1日ごとに評価処理を行い、その後1日分の探索結果を生成するように構成することができる。
図18は、行動最適化装置1が施設管理システムMSに対して探索結果を送信する処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置1は、送信制御部29の制御の下、この処理を実行する。
・行動探索部28が、評価フェーズにおいて、未来期間の行動最適化を行う場合(例えば、その時点から1日分の探索結果を算出する場合)。
・環境再現部27が、評価フェーズにおいて、自身が予測するよりも既存の予測値の方が精度が高いことがわかっている場合(例えば、予測外気温を気象庁から取得していた場合)なお後者の場合、環境再現モデルの出力側の外気温は使われないことになるので、環境再現部27において、設定ファイルを通して環境再現モデルの出力から外気温データを削除した上で学習フェーズと評価フェーズのそれぞれが実行される。
図20は、この発明の一実施形態に係る行動最適化装置1を含むシステムの全体構成の第2の例を示す図である。この例では、行動最適化装置1は、対象空間内の環境を制御するための行動として、対象領域内の汚れ状況をゴミセンサを用いて検出し、対象領域内の清掃を最適化することが想定されている。図1に示したシステムと比較して、センサシステムSSが、センサSs1, ...,Ssnに加えて、追加のセンサとして、掃除機(または掃除機が備えるセンサ)Sm1、空気清浄機(または空気清浄機が備えるセンサ)Sm2、カメラSm3を備えている。これら追加のセンサにより、例えば、掃除機が吸い込んだゴミの量を赤外線センサで測定したデータ、空気清浄機のほこりセンサの値、カメラの画像から汚れ部分を検出したデータなど、汚れを表す情報を含む環境データが取得される。
以上詳述したように、この発明の一実施形態では、行動最適化装置1が、センサシステムSSまたは施設管理システムMSから制御対象である空間に関する環境データを取得し、取得された環境データに対して時空間補間を行う。この時空間補間された環境データに基づいて、環境再現部27により、環境の状態と当該環境を制御するための行動を入力したときに、その行動後の環境の状態の正解値が出力されるように、環境再現モデルを学習させ、学習済みの環境再現モデルに基づいて、環境の変化(時刻tの状態sにおいて行動aを実施したときの次状態s’)の予測が行われる。また一方、行動探索部28により、環境再現部27とやり取りしながら、各時刻tにおける状態sに対し最適な次状態s’へ遷移する行動aの予測を行う探索モデルの学習が行われ、やはり環境再現部27とやり取りしながら、学習済み探索モデルに基づいて、各状態についてとるべき適切な行動のリストが取得され、出力される。
なお、この発明は上記実施形態に限定されるものではない。例えば、一実施形態では、環境データの実測値を取得し、時空間補間を行って、種々の処理に用いるものとして説明したが、必要に応じて、過去に得られた予測値を環境データの一部として用いてもよい。これにより、センサの故障や通信エラーにより一定期間データが得られなかった場合でも、適宜データを補充して処理に用いることができる。また、データの補間や予測には、以上で説明した技法に限定されることなく、様々な技法を用いることができる。
上記各実施形態の一部または全部は、特許請求の範囲のほか以下の付記に示すように記載することも可能であるが、これに限られない。
[C1]
対象空間内の環境を制御するための行動を最適化する、行動最適化装置であって、
前記対象空間内の環境の状態に関する環境データを取得する環境データ取得部と、
前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行う環境データ補間部と、
前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させる環境再現モデル学習部と、
前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させる探索モデル学習部と、
前記環境再現モデルを使用して、第1の環境の状態および第1の行動に対応する第2の環境の状態を予測する環境再現部と、
前記探索モデルを使用して、前記第2の環境の状態に対して取るべき第2の行動を探索する行動探索部と、
前記行動探索部による探索の結果を出力する出力部と
を具備する、行動最適化装置。
[C2]
前記行動探索部は、探索された前記第2の行動を、前記環境再現部に対して出力し、
前記環境再現部は、前記環境再現モデルを使用して、前記第2の環境の状態と前記行動探索部から出力された前記第2の行動とに対応する第3の環境の状態をさらに予測し、
前記行動探索部は、前記探索モデルを使用して、前記第3の環境の状態に対して取るべき第3の行動をさらに探索する、上記C1に記載の行動最適化装置。
[C3]
前記環境再現部は、あらかじめ設定された報酬関数に基づいて、前記第2の環境の状態に対応する報酬をさらに出力し、
前記探索モデル学習部は、前記環境再現部から出力される報酬に基づいて前記探索モデルの学習結果を更新する、上記C1に記載の行動最適化装置。
[C4]
前記環境データに基づいて、あらかじめ設定された時系列分析方法を用いて未来予測を行い、環境予測データを生成する、環境予測部をさらに備え、
前記行動探索部は、前記探索モデルに対して前記環境予測データを使用して、取るべき行動を探索する、上記C1に記載の行動最適化装置。
[C5]
前記環境データに対して乱数に基づくデータ拡張を行う、環境拡張部をさらに備え、
前記環境再現モデル学習部は、前記データ拡張を施された環境データを用いて前記環境再現モデルを学習させる、上記C1に記載の行動最適化装置。
[C6]
前記環境再現モデル学習部、前記探索モデル学習部、前記環境再現部または前記行動探索部が処理に用いるべき情報を指定する方針データを取得する、方針データ取得部をさらに備える、上記C1に記載の行動最適化装置。
[C7]
前記行動探索部は、前記第2の行動として、複数の制御対象を所定の基準に基づいてあらかじめグループ化して得られる制御対象グループに対するグループ単位の行動、または所定の機能を実現するための1もしくは複数の制御対象に対する一連の行動を探索する、上記C1に記載の行動最適化装置。
[C8]
対象空間内の環境を制御するための行動を最適化する行動最適化装置が実行する、行動最適化方法であって、
前記対象空間内の環境の状態に関する環境データを取得する過程と、
前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行う過程と、
前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させる過程と、
前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させる過程と、
前記環境再現モデルを使用して、第1の環境の状態および第1の行動に対応する第2の環境の状態を予測する過程と、
前記探索モデルを使用して、前記第2の環境の状態に対して取るべき第2の行動を探索する過程と、
探索の結果を出力する過程と
を具備する、行動最適化方法。
[C9]
上記C1乃至C7の何れかに記載の装置の各部による処理をプロセッサに実行させるプログラム。
10…入出力インタフェースユニット
20…制御処理ユニット
20A…ハードウェアプロセッサ
20B…プログラムメモリ
21…GUI管理部
22…方針管理部
23…環境データ取得部
24…環境データ補間部
25…環境予測部
26…環境拡張部
27…環境再現部
28…行動探索部
29…送信制御部
30…データメモリ
31…環境データ記憶部
32…方針データ記憶部
33…モデルデータ記憶部
34…探索結果記憶部
210…方針入力画面
220…探索指示入力画面
250…方針入力画面
Claims (9)
- プロセッサと、当該プロセッサに接続されたメモリとを備える、対象空間内の環境を制御するための行動を最適化する行動最適化装置であって、
前記プロセッサが、
前記対象空間内の環境の状態に関する環境データを取得し、
前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行い、
前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させ、学習済みの環境再現モデルを前記メモリに記憶させ、
前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させ、学習済みの探索モデルを前記メモリに記憶させ、
前記メモリに記憶された前記学習済みの環境再現モデルを読み出し、読み出した前記学習済みの環境再現モデルを使用して、第1の環境の状態および第1の行動に対応する第2の環境の状態を予測し、
前記メモリに記憶された前記学習済みの探索モデルを読み出し、読み出した前記学習済みの探索モデルを使用して、前記第2の環境の状態に対して取るべき第2の行動を探索し、
前記探索の結果を出力する
ように構成された、行動最適化装置。 - 前記プロセッサがさらに、
探索された前記第2の行動をもとに、前記学習済みの環境再現モデルを使用して、前記第2の環境の状態と前記第2の行動とに対応する第3の環境の状態をさらに予測し、
前記学習済みの探索モデルを使用して、前記第3の環境の状態に対して取るべき第3の行動をさらに探索する
ように構成された、請求項1に記載の行動最適化装置。 - 前記プロセッサがさらに、
前記学習済みの環境再現モデルを使用して第1の環境の状態および第1の行動に対応する第2の環境の状態を予測する際に、あらかじめ設定された報酬関数に基づいて前記第2の環境の状態に対応する報酬をさらに出力し、
前記学習済みの探索モデルを使用して前記第2の環境の状態に対して取るべき第2の行動を探索する際に、前記報酬に基づいて前記探索モデルの学習結果を更新する
ように構成された、請求項1に記載の行動最適化装置。 - 前記プロセッサがさらに、
前記環境データに基づいて、あらかじめ設定された時系列分析方法を用いて未来予測を行い、環境予測データを生成し、
前記探索モデルに対して前記環境予測データを使用して、取るべき行動を探索する
ように構成された、請求項1に記載の行動最適化装置。 - 前記プロセッサがさらに、
前記環境データに対して乱数に基づくデータ拡張を行い、
前記データ拡張を施された環境データを用いて前記環境再現モデルを学習させる
ように構成された、請求項1に記載の行動最適化装置。 - 前記プロセッサがさらに、
前記環境再現モデルの学習、前記探索モデルの学習、前記第2の環境の状態の予測、および前記第2の行動の探索のうちの少なくとも1つの処理に用いるべき情報を指定する方針データを取得する
ように構成された、請求項1に記載の行動最適化装置。 - 前記プロセッサがさらに、
前記第2の行動として、複数の制御対象を所定の基準に基づいてあらかじめグループ化して得られる制御対象グループに対するグループ単位の行動、または所定の機能を実現するための1もしくは複数の制御対象に対する一連の行動を探索する
ように構成された、請求項1に記載の行動最適化装置。 - プロセッサと当該プロセッサに接続されたメモリとを備える行動最適化装置が、対象空間内の環境を制御するための行動を最適化する、行動最適化方法であって、
前記対象空間内の環境の状態に関する環境データを取得することと、
前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行うことと、
前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させ、学習済みの環境再現モデルを前記メモリに記憶させることと、
前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させ、学習済みの探索モデルを前記メモリに記憶させることと、
前記メモリに記憶された前記学習済みの環境再現モデルを読み出し、読み出した前記学習済みの環境再現モデルを使用して、第1の環境の状態および第1の行動に対応する第2の環境の状態を予測することと、
前記メモリに記憶された前記学習済みの探索モデルを読み出し、読み出した前記学習済みの探索モデルを使用して、前記第2の環境の状態に対して取るべき第2の行動を探索することと、
探索の結果を出力することと
を具備する、行動最適化方法。 - 対象空間内の環境を制御する行動を最適化するためのプログラムを記憶した非一時的な有形のコンピュータ可読記憶媒体であって、前記プログラムは、
前記対象空間内の環境の状態に関する環境データを取得することと、
前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行うことと、
前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させることと、
前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させることと、
前記環境再現モデルを使用して、第1の環境の状態および第1の行動に対応する第2の環境の状態を予測することと、
前記探索モデルを使用して、前記第2の環境の状態に対して取るべき第2の行動を探索することと、
探索の結果を出力することと
をプロセッサに実行させるための命令を備える、コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018141754 | 2018-07-27 | ||
JP2018141754 | 2018-07-27 | ||
PCT/JP2019/027911 WO2020022123A1 (ja) | 2018-07-27 | 2019-07-16 | 行動最適化装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020022123A1 true JPWO2020022123A1 (ja) | 2020-12-17 |
JP7014299B2 JP7014299B2 (ja) | 2022-02-01 |
Family
ID=69180432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020532306A Active JP7014299B2 (ja) | 2018-07-27 | 2019-07-16 | 行動最適化装置、方法およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11808473B2 (ja) |
EP (1) | EP3832556B1 (ja) |
JP (1) | JP7014299B2 (ja) |
CN (1) | CN112400179A (ja) |
WO (1) | WO2020022123A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6833138B2 (ja) * | 2018-12-12 | 2021-02-24 | 三菱電機株式会社 | 空調制御装置及び空調制御方法 |
WO2020218632A1 (ko) * | 2019-04-23 | 2020-10-29 | 엘지전자 주식회사 | 인공지능 장치 |
CN111609534B (zh) * | 2020-05-25 | 2022-02-25 | 珠海拓芯科技有限公司 | 温度控制方法、装置及中央温度控制系统 |
WO2021250770A1 (ja) * | 2020-06-09 | 2021-12-16 | 三菱電機株式会社 | 空気調和装置の制御のための学習装置および推論装置 |
WO2022054176A1 (ja) * | 2020-09-09 | 2022-03-17 | 日本電信電話株式会社 | 制御対象デバイス選択装置、制御対象デバイス選択方法およびプログラム |
JP7405271B2 (ja) | 2020-09-09 | 2023-12-26 | 日本電信電話株式会社 | デバイス制御値生成装置、デバイス制御値生成方法、プログラム、および、学習モデル生成装置 |
WO2022059137A1 (ja) * | 2020-09-17 | 2022-03-24 | 三菱電機株式会社 | 空調システム、学習装置、および推論装置 |
CN112866021B (zh) * | 2021-01-12 | 2021-11-09 | 中移(成都)信息通信科技有限公司 | 基于深度强化学习的ai智慧节能动态控制方法 |
KR20220141086A (ko) * | 2021-04-12 | 2022-10-19 | 한온시스템 주식회사 | 보간법을 활용한 인공지능 공조 제어 시스템 및 그 방법 |
CN118176391A (zh) * | 2021-11-09 | 2024-06-11 | 三菱电机株式会社 | 控制装置和控制方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013124833A (ja) * | 2011-12-15 | 2013-06-24 | Samsung Yokohama Research Institute Co Ltd | 空気調和装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2700342A1 (en) | 2007-09-19 | 2009-03-26 | United Technologies Corporation | System and method for occupancy estimation |
JP2011231946A (ja) | 2010-04-23 | 2011-11-17 | Panasonic Electric Works Co Ltd | 資源管理システム |
US8706310B2 (en) * | 2010-06-15 | 2014-04-22 | Redwood Systems, Inc. | Goal-based control of lighting |
CN103168278B (zh) * | 2010-08-06 | 2017-01-18 | 加利福尼亚大学董事会 | 用于分析建筑物操作传感器数据的系统和方法 |
JP2015200639A (ja) * | 2014-03-31 | 2015-11-12 | ダイキン工業株式会社 | 温度分布データ生成システム |
US10101730B2 (en) * | 2014-05-01 | 2018-10-16 | Johnson Controls Technology Company | Incorporating a load change penalty in central plant optimization |
US10571414B2 (en) * | 2015-01-30 | 2020-02-25 | Schneider Electric USA, Inc. | Interior volume thermal modeling and control apparatuses, methods and systems |
US10970404B2 (en) * | 2016-05-23 | 2021-04-06 | Informatica Llc | Method, apparatus, and computer-readable medium for automated construction of data masks |
JP2018048750A (ja) * | 2016-09-20 | 2018-03-29 | 株式会社東芝 | 空調制御装置、空調制御方法及び空調制御プログラム |
US11222422B2 (en) * | 2017-03-09 | 2022-01-11 | Northwestern University | Hyperspectral imaging sensor |
WO2019013014A1 (ja) * | 2017-07-12 | 2019-01-17 | 三菱電機株式会社 | 快適度表示装置 |
US10660241B2 (en) * | 2017-09-06 | 2020-05-19 | Vertiv Corporation | Cooling unit energy optimization via smart supply air temperature setpoint control |
US20190187634A1 (en) * | 2017-12-15 | 2019-06-20 | Midea Group Co., Ltd | Machine learning control of environmental systems |
US20190251456A1 (en) * | 2018-02-09 | 2019-08-15 | Dexcom, Inc. | System and method for decision support |
US20190378020A1 (en) * | 2018-05-04 | 2019-12-12 | Johnson Controls Technology Company | Building energy system with energy data stimulation for pre-training predictive building models |
WO2019222745A1 (en) * | 2018-05-18 | 2019-11-21 | Google Llc | Sample-efficient reinforcement learning |
US11468334B2 (en) * | 2018-06-19 | 2022-10-11 | International Business Machines Corporation | Closed loop model-based action learning with model-free inverse reinforcement learning |
-
2019
- 2019-07-16 JP JP2020532306A patent/JP7014299B2/ja active Active
- 2019-07-16 WO PCT/JP2019/027911 patent/WO2020022123A1/ja unknown
- 2019-07-16 CN CN201980043774.3A patent/CN112400179A/zh active Pending
- 2019-07-16 US US17/263,255 patent/US11808473B2/en active Active
- 2019-07-16 EP EP19839922.2A patent/EP3832556B1/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013124833A (ja) * | 2011-12-15 | 2013-06-24 | Samsung Yokohama Research Institute Co Ltd | 空気調和装置 |
Non-Patent Citations (1)
Title |
---|
WEBER, THEOPHANE ET AL., IMAGINATION-AUGMENTED AGENTS FOR DEEP REINFORCEMENT LEARNING, vol. v2, JPN6019037614, 14 February 2018 (2018-02-14), pages 1 - 12, ISSN: 0004583124 * |
Also Published As
Publication number | Publication date |
---|---|
CN112400179A (zh) | 2021-02-23 |
EP3832556B1 (en) | 2023-12-13 |
US11808473B2 (en) | 2023-11-07 |
US20210140670A1 (en) | 2021-05-13 |
EP3832556A4 (en) | 2022-04-20 |
EP3832556A1 (en) | 2021-06-09 |
WO2020022123A1 (ja) | 2020-01-30 |
JP7014299B2 (ja) | 2022-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7014299B2 (ja) | 行動最適化装置、方法およびプログラム | |
US11062580B2 (en) | Methods and systems for updating an event timeline with event indicators | |
US10977918B2 (en) | Method and system for generating a smart time-lapse video clip | |
US20210125475A1 (en) | Methods and devices for presenting video information | |
Chen et al. | An agent-based stochastic Occupancy Simulator | |
KR20190106327A (ko) | 사용자 만족도 기반 에너지 대비 쾌적도 효율성 지수 분석 시스템 및 방법 | |
Cook et al. | Smart homes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200612 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210831 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220103 |