JPWO2020022123A1 - 行動最適化装置、方法およびプログラム - Google Patents

行動最適化装置、方法およびプログラム Download PDF

Info

Publication number
JPWO2020022123A1
JPWO2020022123A1 JP2020532306A JP2020532306A JPWO2020022123A1 JP WO2020022123 A1 JPWO2020022123 A1 JP WO2020022123A1 JP 2020532306 A JP2020532306 A JP 2020532306A JP 2020532306 A JP2020532306 A JP 2020532306A JP WO2020022123 A1 JPWO2020022123 A1 JP WO2020022123A1
Authority
JP
Japan
Prior art keywords
environment
data
state
action
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020532306A
Other languages
English (en)
Other versions
JP7014299B2 (ja
Inventor
伸彦 松浦
伸彦 松浦
翠 児玉
翠 児玉
崇洋 秦
崇洋 秦
元紀 中村
元紀 中村
社家 一平
一平 社家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2020022123A1 publication Critical patent/JPWO2020022123A1/ja
Application granted granted Critical
Publication of JP7014299B2 publication Critical patent/JP7014299B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47LDOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
    • A47L9/00Details or accessories of suction cleaners, e.g. mechanical means for controlling the suction or for effecting pulsating action; Storing devices specially adapted to suction cleaners or parts thereof; Carrying-vehicles specially adapted for suction cleaners
    • A47L9/28Installation of the electric equipment, e.g. adaptation or attachment to the suction cleaner; Controlling suction cleaners by electric means
    • A47L9/2805Parameters or conditions being sensed
    • A47L9/281Parameters or conditions being sensed the amount or condition of incoming dirt or dust
    • A47L9/2815Parameters or conditions being sensed the amount or condition of incoming dirt or dust using optical detectors
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47LDOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
    • A47L11/00Machines for cleaning floors, carpets, furniture, walls, or wall coverings
    • A47L11/40Parts or details of machines not provided for in groups A47L11/02 - A47L11/38, or not restricted to one of these groups, e.g. handles, arrangements of switches, skirts, buffers, levers
    • A47L11/4011Regulation of the cleaning machine by electric means; Control systems and remote control systems therefor
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47LDOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
    • A47L9/00Details or accessories of suction cleaners, e.g. mechanical means for controlling the suction or for effecting pulsating action; Storing devices specially adapted to suction cleaners or parts thereof; Carrying-vehicles specially adapted for suction cleaners
    • A47L9/28Installation of the electric equipment, e.g. adaptation or attachment to the suction cleaner; Controlling suction cleaners by electric means
    • A47L9/2805Parameters or conditions being sensed
    • A47L9/281Parameters or conditions being sensed the amount or condition of incoming dirt or dust
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47LDOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
    • A47L9/00Details or accessories of suction cleaners, e.g. mechanical means for controlling the suction or for effecting pulsating action; Storing devices specially adapted to suction cleaners or parts thereof; Carrying-vehicles specially adapted for suction cleaners
    • A47L9/28Installation of the electric equipment, e.g. adaptation or attachment to the suction cleaner; Controlling suction cleaners by electric means
    • A47L9/2805Parameters or conditions being sensed
    • A47L9/2826Parameters or conditions being sensed the condition of the floor
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/048Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Automation & Control Theory (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Combustion & Propulsion (AREA)
  • Fuzzy Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

対象空間内の環境を制御するための行動を最適化する、信頼性の高い技術を提供する。環境を制御するための行動を最適化する行動最適化装置は、環境の状態に関する環境データを取得し、取得された環境データに対して時空間補間を行い、時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、行動後の環境の状態の正解値が出力されるように、環境再現モデルを学習させ、また、環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させ、これら学習済みの環境再現モデルおよび探索モデルを使用して、第1の環境の状態および第1の行動に対応する第2の環境の状態を予測し、第2の環境の状態に対して取るべき第2の行動を探索し、探索の結果を出力する。

Description

この発明の一態様は、対象空間内の環境を制御するための行動を最適化する、行動最適化装置、方法、およびプログラムに関する。
オフィスビルなどの建物や施設の管理において、空調機器をはじめとする機器や設備の動作状態や清掃人員の配置に対して行う操作(以下、まとめて「制御」または「環境を制御するための行動」と言う)を最適化する技術が提案されている。例えば、空調機器等の消費エネルギーを把握・削減することを目的としたビルエネルギーマネジメントシステム(BEMS:Building Energy Management System)(非特許文献1参照)や、トイレの利用者数により清掃スタッフ数の適正化を行う清掃最適化システム(非特許文献2参照)が知られている。これらの技術では、各種データを活用した様々なフィードバック型の最適化システムが利用されている。
また一方、所定の空間における人の流れや数(以下、「人流」と言う)を測定し、その測定結果に基づいた予測値を考慮して機器の運転を制御する、フィードフォワード型の最適化システムが知られている(特許文献1参照)。特許文献1の技術では、対象空間と相関関係を持つことがわかっている隣接空間の人流比をあらかじめ測定しておき、該人流比と隣接空間から得られた人流量との乗算により対象空間の予測人流量を算出し、該予測人流量に応じて消費エネルギー量の上限を設定する。
日本国特開2011−231946号公報
朝妻智裕著,「ビルの快適性と省エネを両立させ安全・安心を支えるスマートBEMS」,東芝レビュー Vol.68,No.12(2013),26−29ページ 鍋山徹著,「IoTの新たなビジネスの可能性と地域に関する調査研究」,日経研月報2017.5,74−83ページ
しかし、非特許文献1および非特許文献2に記載された技術では、フィードバック型システムが用いられているので、例えば施設内の室温が寒くなりすぎたり汚れが目立つようになったりといった非最適状態を検出して制御の最適化が行われるため、最適状態に戻るまでのタイムラグが問題となる。
一方、特許文献1に記載された技術では、非最適状態を引き起こす要因の1つである人流の予測値を考慮するフィードフォワード型の最適化システムが用いられている。しかし特許文献1のシステムは、短期的な人流の増減に単純に追従するものに過ぎないので、継続的に人流が多いのかまたはただちに人流が減少するのかといった中長期的な人流の増減を考慮した制御の最適化をすることができない。また、制御変更による効果を見積もらずに単純に消費エネルギー量の上限を調整しているため、代表点から離れた箇所に人が密集したことで熱溜まりが発生して利用者の快適性が損なわれたり、近隣からの冷暖気の流入出により予測誤差が発生して省エネ性が損なわれる、といった対象空間内に存在する相互作用に追従した制御を考慮することができない。また空調制御以外の最適化問題に利用することも容易でない。
この発明は上記事情に着目してなされたもので、その目的とするところは、予測される効果を考慮して対象空間内の環境を制御するための行動を最適化する、信頼性の高い行動最適化技術を提供することにある。
上記課題を解決するためにこの発明の第1の態様は、対象空間内の環境を制御するための行動を最適化する行動最適化装置にあって、上記対象空間内の環境の状態に関する環境データを取得する環境データ取得部と、上記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行う環境データ補間部と、上記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、上記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させる環境再現モデル学習部と、上記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させる探索モデル学習部と、上記環境再現モデルを使用して、第1の環境の状態および第1の行動に対応する第2の環境の状態を予測する環境再現部と、上記探索モデルを使用して、上記第2の環境の状態に対して取るべき第2の行動を探索する行動探索部と、上記行動探索部による探索の結果を出力する出力部とを具備するようにしたものである。
この発明の第2の態様は、上記第1の態様において、上記行動探索部が、探索された上記第2の行動を上記環境再現部に対して出力し、上記環境再現部が、上記環境再現モデルを使用して、上記第2の環境の状態と上記行動探索部から出力された上記第2の行動とに対応する第3の環境の状態をさらに予測し、上記行動探索部が、上記探索モデルを使用して、上記第3の環境の状態に対して取るべき第3の行動をさらに探索するようにしたものである。
この発明の第3の態様は、上記第1の態様において、上記環境再現部が、あらかじめ設定された報酬関数に基づいて、上記第2の環境の状態に対応する報酬をさらに出力し、上記探索モデル学習部が、上記環境再現部から出力される報酬に基づいて上記探索モデルの学習結果を更新するようにしたものである。
この発明の第4の態様は、上記第1の態様において、上記環境データに基づいて、あらかじめ設定された時系列分析方法を用いて未来予測を行い、環境予測データを生成する、環境予測部をさらに備え、上記行動探索部が、上記探索モデルに対して上記環境予測データを使用して、取るべき行動を探索するようにしたものである。
この発明の第5の態様は、上記第1の態様において、上記環境データに対して乱数に基づくデータ拡張を行う、環境拡張部をさらに備え、上記環境再現モデル学習部が、上記データ拡張を施された環境データを用いて上記環境再現モデルを学習させるようにしたものである。
この発明の第6の態様は、上記第1の態様において、上記環境再現モデル学習部、上記探索モデル学習部、上記環境再現部または上記行動探索部が処理に用いるべき情報を指定する方針データを取得する、方針データ取得部をさらに備えるようにしたものである。
この発明の第7の態様は、上記第1の態様において、上記行動探索部が、上記第2の行動として、複数の制御対象を所定の基準に基づいてあらかじめグループ化して得られる制御対象グループに対するグループ単位の行動、または所定の機能を実現するための1もしくは複数の制御対象に対する一連の行動を探索するようにしたものである。
この発明の第1の態様によれば、時空間補間された対象空間内の環境データに基づいて、環境の状態およびそれに対する行動とその後の環境の状態との対応関係を、それぞれに対応した3種類のデータからなる教師データを用いて環境再現モデルに学習させ、その学習済みの環境再現モデルに基づいて、環境の状態と行動から環境の状態の変化を予測する。また、環境の状態を入力したときに次にとるべき行動が出力されるように探索モデルを学習させ、その学習済みの探索モデルを用いて、上記環境再現モデルによって予測された環境の状態に対してとるべき行動を探索できるようにしている。
このように、取得された環境データに対して時空間補間を行っているので、過去の特定の時点のデータに限定されることなく、任意の期間のデータを用いて環境再現モデルに学習させることができ、そのような環境再現モデルを用いることで、より信頼性の高い予測結果が得られ、その予測結果を用いてより信頼性の高い探索を行うことができる。また、代表点以外の環境データを用いることができるので、熱溜まりなどの局所的な環境条件も考慮に入れて、行動の探索を行うことができる。なお、熱溜まりとは一般に周囲に比べて温度の高い局所的な空間を言う。また、多種多様な情報を含む環境データを用いることにより、例えば空調制御に限定されない、多様な条件に適合する学習または行動探索を行うことができる。また、環境予測と行動探索のために2種類の学習器を用いるので、それぞれ個別に検証や調整を行って、さらに予測の信頼性を高めることもできる。
この発明の第2の態様によれば、上記第1の態様において、環境再現モデルを用いて予測された環境の状態と、その環境の状態に対して探索モデルを用いて探索された行動とが、再び、環境再現モデルに入力され、新たな環境の状態が予測される。そして、その新たな環境の状態が再び行動探索モデルに入力され、さらに新たな行動が探索される。これにより、環境再現モデルを用いた予測結果と探索モデルを用いた探索結果とが連鎖的に機能して、教師データに存在しない環境の状態と行動のペアが選ばれたとしても探索を継続し、複数の時点に対応する環境の状態に対して取るべき行動を、一連の探索結果として得ることができる。
この発明の第3の態様によれば、上記第1の態様において、あらかじめ設定された報酬関数に基づいて、第1の環境の状態およびそれに対する第1の行動から予測される第2の環境の状態に対応する報酬が求められ、求められた報酬に基づいて探索モデルの更新が行われる。これにより、教師データを一意に用意できないような複雑な最適化問題においても探索モデルを学習でき、適切な行動を探索し出力することができる。
この発明の第4の態様によれば、上記第1の態様において、環境データに基づいて時系列分析により予測されたデータを用いて、環境を制御するための行動の探索が行われる。これにより、環境情報に関する予測値を十分に取得できない状況においても、信頼性の高い予測データに基づいて行動の探索を行うことができる。
この発明の第5の態様によれば、上記第1の態様において、取得された環境データに対して乱数に基づくデータ拡張が行われ、データ拡張を施された環境データを用いて、環境再現モデルの学習が行われる。データ拡張により、見かけ上のデータの量を増やすことができるので、環境再現モデルの学習のために十分な量の環境データを収集するのに要する時間を短縮することができる。
この発明の第6の態様によれば、上記第1の態様において、環境再現モデルの学習、探索モデルの学習、またはそれらのモデルを用いた評価の際に必要な種々の情報に関する方針データが取得される。これにより、制御の対象や環境条件等に応じて学習や評価の手法を個々に設定し、よりフレキシブルな処理を行うことができる。
この発明の第7の態様によれば、上記第1の態様において、上記第2の行動として、制御対象グループに対するグループ単位での行動、または所定の機能を実現するための一連の行動が探索される。これにより、制御対象、制御目的、制御環境等に応じた、さらにフレキシブルな処理を実現することができる。
すなわちこの発明の各態様によれば、予測される効果を考慮して対象空間内の環境を制御するための行動を最適化する、信頼性の高い行動最適化技術を提供することができる。
図1は、この発明の一実施形態に係る行動最適化装置を含むシステムの全体構成の第1の例を示す図である。 図2は、図1に示した行動最適化装置のハードウェア構成を示すブロック図である。 図3は、図1に示した行動最適化装置のソフトウェア構成を示すブロック図である。 図4は、図1に示した行動最適化装置による環境データ取得の処理手順と処理内容の一例を示すフローチャートである。 図5Aは、環境データの一例として人流データを示す図である。 図5Bは、環境データの一例として温度データを示す図である。 図5Cは、環境データの一例としてBEMSデータを示す図である。 図6は、図1に示した行動最適化装置による環境データの予測の処理手順と処理内容の一例を示すフローチャートである。 図7は、図1に示した行動最適化装置による環境データの時空間補間の処理手順と処理内容の一例を示すフローチャートである。 図8は、図7に示した時空間補間処理の対象となる環境データの一例を示す図である。 図9は、図1に示した行動最適化装置の動作方針を指定するために用いられるGUI画面の第1の例を示す図である。 図10は、図1に示した行動最適化装置による方針管理の処理手順と処理内容の一例を示すフローチャートである。 図11は、図1に示した行動最適化装置の動作について指定する情報を含む方針データの一例を示す図である。 図12は、図1に示した行動最適化装置による環境再現モデルの学習処理の手順と処理内容の一例を示すフローチャートである。 図13は、図1に示した行動最適化装置によるデータ拡張処理の手順と処理内容の一例を示すフローチャートである。 図14は、図1に示した行動最適化装置による環境再現モデルを用いた評価処理の手順と処理内容の一例を示すフローチャートである。 図15は、図1に示した行動最適化装置の探索動作を指定するために用いられるGUI画面の一例を示す図である。 図16は、図1に示した行動最適化装置による探索モデルの学習処理の手順と処理内容の一例を示すフローチャートである。 図17は、図1に示した行動最適化装置による探索モデルを用いた評価処理の手順と処理内容の一例を示すフローチャートである。 図18は、図1に示した行動最適化装置の出力部による出力の処理手順と処理内容の一例を示すフローチャートである。 図19は、図1に示した行動最適化装置による探索結果の一例を示す図である。 図20は、この発明の一実施形態に係る行動最適化装置を含むシステムの全体構成の第2の例を示す図である。 図21は、図20に示した行動最適化装置の動作方針を指定するために用いられるGUI画面の第2の例を示す図である。
以下、図面を参照してこの発明に係わる実施形態を説明する。
[一実施形態]
(実施例1)
(構成)
(1)システム
図1は、この発明の一実施形態に係る行動最適化装置1を含むシステムの全体構成の第1の例を示す図である。この例では、行動最適化装置1は、対象空間内の環境を制御するための行動として、空調の制御を最適化することが想定されている。このシステムは、行動最適化装置1と、当該行動最適化装置1とネットワークNWやケーブル等を介して間接的にまたは直接的に接続された、1以上の外部センサSs1,Ss2,...,Ssnまたはこれらを統括する統括装置SI(以降、これらをまとめて「センサシステムSS」と言う)と、空調システムASや清掃システムCSなどの施設内外に存在する施設管理システムMSとを含む。
ネットワークNWは、例えばインターネットに代表されるIP(Internet Protocol)網と、このIP網に対しアクセスするための複数のアクセス網とから構成される。アクセス網としては、光ファイバを使用した有線網はもとより、例えば3G又は4G等の規格の下で動作する携帯電話網や、無線LAN(Local Area Network)等が用いられる。
外部センサSs1,Ss2,...,Ssnは、例えば、人流センサ、温度センサ、湿度センサ、赤外線センサ等、対象空間内の環境に関する種々の情報を取得するセンサであり、人流、温度、湿度、物体の有無等、種々のデータを出力する。統括装置SIは、例えば、外部センサSs1,Ss2,...,Ssnの動作を統括的に制御するとともに、外部センサSs1,Ss2,...,Ssnによって出力されたデータを統括的に収集し送信することができる。
一実施形態に係る行動最適化装置1は、ネットワークNWや信号ケーブル等を介して、センサシステムSSや施設管理システムMSから種々の情報を環境データとして受信し、また、施設管理システムMSに対して制御信号を送信することができる。
(2)行動最適化装置
(2−1)ハードウェア構成
図2は、図1に示した実施形態に係る行動最適化装置1のハードウェア構成の一例を示すブロック図である。行動最適化装置1は、例えばパーソナルコンピュータまたはサーバ装置からなり、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等のハードウェアプロセッサ20Aを有し、このハードウェアプロセッサ20Aに対し、入出力インタフェースユニット10と、プログラムメモリ20Bと、データメモリ30とを、バス40を介して接続したものとなっている。
入出力インタフェースユニット10は、例えば有線または無線インタフェースを有しており、上記センサシステムSSまたは施設管理システムMSから送信された環境データを受信するとともに、行動最適化装置1から出力される制御信号を施設管理システムMSへ送信する機能を有する。入出力インタフェースユニット10は、また、図示しない表示デバイスや入力デバイスとの間で情報の送受信を可能にする。有線インタフェースとしては、例えば有線LANが使用され、また無線インタフェースとしては、例えば無線LANやBluetooth(登録商標)などの小電力無線データ通信規格を採用したインタフェースが使用される。
入出力インタフェースユニット10は、また、GUI(Graphical User Interface)を含み、例えば、図示しない入力デバイスからユーザやオペレータが入力した方針指示または探索指示を取り込むことができる。
プログラムメモリ20Bは、記憶媒体として、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリと、ROM等の不揮発性メモリとを組み合わせて使用したもので、実施形態に係る各種制御処理を実行するために必要なプログラムが格納されている。
データメモリ30は、記憶媒体として、例えば、HDDまたはSSD等の随時書込みおよび読出しが可能な不揮発性メモリと、RAM(Random Access Memory)等の揮発性メモリとを組み合わせて使用したもので、各種処理を行う過程で取得および作成された各種データを記憶するために用いられる。
(2−2)ソフトウェア構成
図3は、図1に示した実施形態に係る行動最適化装置1のソフトウェア構成を、図2に示したハードウェア構成と関連付けて示したブロック図である。行動最適化装置1は、入出力インタフェースユニット10と、制御処理ユニット20と、データメモリ30とを備えている。
データメモリ30の記憶領域は、環境データ記憶部31と、方針データ記憶部32と、モデルデータ記憶部33と、探索結果記憶部34とを備えている。
環境データ記憶部31は、センサシステムSSおよび施設管理システムMSから取得した環境データを記憶する。環境データは、対象とする空間内の環境に関するデータであり、環境の状態を表すデータに加えて、環境に対する制御を表すデータを含み得る。例えば、環境データには、人流、温度、湿度、汚れやごみの存在、空気中の粒子の飛散量など、種々のセンサによってセンシングされた情報に加え、空調機器の設定温度や運転モード、清掃システムCSによって管理される清掃スケジュールなど、多種多様な情報が含まれてもよい。
方針データ記憶部32は、GUIを介してユーザ等が入力した、行動最適化装置1における種々の処理に関する指示情報を含む方針データを記憶する。方針データは、例えば、学習に用いるデータや学習方法を指定する情報を含む。
モデルデータ記憶部33は、行動最適化装置1が種々の処理に用いるモデルデータを記憶する。各々のモデルデータは、バイナリ形式等の適切に実行可能な形式で保存がされており、モデル名称を表すメタデータも含み得る。
探索結果記憶部34は、行動最適化装置1の行動探索処理によって得られる探索結果を記憶する。
ただし、上記記憶部31〜34は、必須の構成ではなく、行動最適化装置1が直接センサシステムSSや施設管理システムMSから必要なデータを随時取得するようにしてもよい。あるいは、上記記憶部31〜34は、行動最適化装置1に内蔵されたものでなくてもよく、例えば、クラウドに配置されたデータベースサーバ等の外部の記憶装置に設けられたものであってもよい。この場合、行動最適化装置1は、ネットワークNWを介して上記クラウドのデータベースサーバにアクセスすることにより、必要なデータを取得する。
制御処理ユニット20は、上記ハードウェアプロセッサ20Aと、上記プログラムメモリ20Bとから構成され、ソフトウェアによる処理機能部として、GUI管理部21と、方針管理部22と、環境データ取得部23と、環境データ補間部24と、環境予測部25と、環境拡張部26と、環境再現部27と、行動探索部28と、送信制御部29とを備えている。これらの処理機能は、いずれも上記プログラムメモリ20Bに格納されたプログラムを上記ハードウェアプロセッサ20Aに実行させることにより実現される。制御処理ユニット20は、また、ASIC(Application Specific Integrated Circuit)やFPGA(field-programmable gate array)などの集積回路を含む、他の多様な形式で実現されてもよい。
GUI管理部21は、ユーザやオペレータ等が行動最適化装置1の処理に関する指示を入力するためのGUIを提供する。例えば、GUI管理部21は、図示しない表示装置にGUIを表示させ、GUIを介して入力されたユーザの指示を受け取る。この実施形態では、GUI管理部21は、GUIを介して、学習に用いるデータや学習方法を指定する情報を受け取り、それらを方針管理部22または行動探索部28に出力することができる。
方針管理部22は、方針データ取得部として機能し、GUI管理部21から受け取った情報に基づいて方針データを生成し、生成した方針データを方針データ記憶部32に格納する。方針管理部22は、方針データを管理することにより、GUIを介して入力された種々の指示とモデルとの関係を整理する働きをする。
環境データ取得部23は、センサシステムSSまたは施設管理システムMSによって送信される、制御対象である空間の環境に関する情報を含む環境データを取得し、取得した環境データを環境データ記憶部31に格納する処理を行う。環境データは、例えば、人流センサによって取得された人流データや、温度センサによって取得された温度データなどを含む。
環境データ補間部24は、取得された環境データに対してあらかじめ設定された方法で時空間補間をする処理を行う。環境データ補間部24は、例えば、1時間ごとに過去1時間分の環境データを読み出し、読み出した環境データに対して時間補間および空間補間を行う。
ここでは、時間補間とは、取得されたデータのポイントに対して時間的に中間のポイントのデータを求める(推測する)処理を言い、例えば、取得された環境データが10分間隔のデータである場合に、1分間隔のデータを求める処理を言う。同様に、空間補間とは、取得されたデータのポイントに対して空間的に中間のポイントのデータを求める(推測する)処理を言い、例えば、センサが設置された位置で取得された実測値から、センサが設置されていない位置に対応する値を求める処理を言う。以下、時間補間および空間補間をまとめて「時空間補間」と言う。
環境予測部25は、取得された環境データに基づいて、あらかじめ設定された時系列分析方法を用いて未来予測を行い、環境予測データを生成する処理を行う。
環境拡張部26は、取得された環境データに対して乱数に基づくデータ拡張する処理を行う。ここでは、データ拡張とは、入力側に対して微小なノイズやマスクをかけたり、入力側と出力側の両方に共通のアフィン変換をかけたりといった処理を意味し、このような処理を乱数に応じて実施することで、予測処理のロバスト性を向上させることを目的とする。
環境再現部27は、学習フェーズと評価フェーズという2つの動作フェーズを有する。環境再現部27は、学習フェーズにおいては、環境再現モデル学習部として機能し、環境の状態と当該環境を制御するための行動を入力したときに、その行動の後の環境の状態の正解値が出力されるように環境再現モデルを学習させる処理を行う(以下、環境再現部27で用いるモデルを「環境再現モデル」と言う)。一方、評価フェーズにおいては、環境再現部27は、学習済みの環境再現モデルを使用して、環境の状態とそれに対する行動とに基づいて、その後の環境の状態を予測する処理を行う。
行動探索部28もまた、学習フェーズと評価フェーズという2つの動作フェーズを有する。行動探索部28は、学習フェーズにおいては、探索モデル学習部として機能し、環境の状態を入力したときに次にとるべき行動が出力されるように探索モデルを学習させる処理を行う(以下、行動探索部28で用いるモデルデータを「探索モデル」と言う)。一方、評価フェーズにおいては、行動探索部28は、学習済みの探索モデルを使用して、環境の状態に基づいて、それに対して取るべきより適切な行動を探索する処理(探索処理)を行う。例えば、行動探索部28は、指定された時間期間について、各時刻tにおける状態sに対して最適な次状態s’へ遷移する行動aの予測(評価)を行い、最適化された行動のスケジュールを出力する処理を行う。
送信制御部29は、出力部として機能し、行動探索部28が評価フェーズで出力する探索結果を施設管理システムMS等に対して送信(出力)する処理を行う。
(動作)
次に、以上のように構成された行動最適化装置1の各部による情報処理動作を説明する。
(1)環境データの取得
図4は、行動最適化装置1による環境データ取得の処理手順と処理内容の一例を示すフローチャートである。
行動最適化装置1は、まずステップS301において、環境データ取得部23の制御の下、センサシステムSSまたは施設管理システムMSから送信された環境データを取得する。一実施形態では、環境データは、少なくとも人流データを含み、その他にセンサシステムSSや施設管理システムMSから取得した種々のデータを含み得る。
センサシステムSSまたは施設管理システムMSによる環境データの送信のタイミングは、多種多様なものでよい。例えば、センサシステムSSまたは施設管理システムMSは、所定のサンプリング周期でデータを取得し、蓄積して、この蓄積されたデータを一定時間(例えば1時間)ごとに行動最適化装置1へ直接送信するようにしてもよい。または、行動最適化装置1が、一定時間ごとにまたはユーザからの指示の入力に応じてセンサシステムSSまたは施設管理システムMSにデータ送信要求を送信し、このデータ送信要求に応答して、センサシステムSSまたは施設管理システムMSが最新の環境データまたは蓄積されたデータを行動最適化装置1に対して送信するようにしてもよい。あるいは、センサシステムSSまたは施設管理システムMSから送信された環境データが、例えばネットワークNWを介して図示しないデータベースサーバに蓄積され、行動最適化装置1が、一定時間ごとに、またはユーザからの指示の入力に応じて、データベースサーバから必要なデータを読み出すようにしてもよい。
行動最適化装置1は、ステップS302において、取得した環境データを環境データ記憶部31に保存する。
図5A〜5Cは、環境データの例を示す図である。
図5Aは、環境データの一例として人流データを示す。一実施形態では、人流データは、センサが人流を測定した時刻を表す「時刻」と、センサが設置された場所を表す「識別子」と、センサが測定した「人数」と、のフィールドからなる。人流を測定するセンサとしては、例えば、レーザセンサ、赤外線センサ、カメラなど、多種多様なセンサを用いることができる。人流データの各フィールド項は、図5Aに示したものに限定されるものではなく、例えば、人数として単位時間当たりの任意測定区画(例えば1秒間隔の1m平方のメッシュ)に存在した人の数としてもよく、多種多様なフィールド項をとり得る。
図5Bは、環境データの一例として温度データを示す。一実施形態では、温度データは、センサが温度を測定した時刻を表す「時刻」と、センサが設置された場所を表す「識別子」と、センサが測定した「温度」と、のフィールドからなる。温度を測定するセンサとして、例えば、熱電対、測温抵抗体、サーミスタなど、多種多様なセンサを用いることができる。温度データの各フィールド項は、図5Bに示したものに限定されるものではなく、多種多様なフィールド項をとり得、例えば、温度精度を表すフィールドを新たに設けてもよい。
図5Cは、環境データの一例としてBEMSデータを示す。一実施形態では、BEMSデータは、主に施設管理システムMSから取得できる空調制御に関するデータを表しており、管理システムに該レコードが書き込まれた時刻を表す「時刻」と、複数ある空調機器のうちのいずれに対応するかを表す「識別子」と、空調をONにするかOFFにするかを表す「空調」と、空調から吹き出す空気の温度を表す「設定温度」と、のフィールドからなる。やはり、各フィールド項はこれらに限定されるものではなく、例えば空調から供給される送風量を表す給気フィールドを新たに設けてもよい。
なお、環境データは、図示したフィールド名と値とは別に、図示していない人流や温度といったデータ名称を表すメタデータも含み得る。またBEMSデータのように複数のフィールドを持つデータについて、例えば、測定時刻、識別子、空調からなる空調データと、測定時刻、識別子、設定温度からなる空調設定温度データのように、分割してより細かい粒度でデータ管理を行うようにしてもよい。
(2)環境データの予測
図6は、行動最適化装置1による、あらかじめ設定された時系列分析方法を用いて環境データの予測を行う処理手順と処理内容の一例を示すフローチャートである。一実施形態では、環境予測部25が、時系列分析手法の1つである自己回帰移動平均(ARMA:Autoregressive Moving Average)モデル(例えば、沖本竜義著,「経済・ファイナンスデータの計量時系列分析」,株式会社朝倉書店,2017年9月10日第12刷発行,参照)を用いて、環境データの今後1日間の予測を行う。環境予測部25は、所定の時間間隔ごとに自動的に起動するようにしてもよいし、ユーザまたはオペレータからの指示の入力に応じて起動するようにしてもよい。一実施形態では、環境予測部25は、1日ごとに自動的に起動して以下のような処理を行う。
行動最適化装置1は、まずステップS501において、環境予測部25の制御の下、前回起動時から環境データ記憶部31に保存された環境データについて新規データが存在するか否かを判定する。ステップS501において、新規データが存在しないと判定された場合、処理を終了する。一方、ステップS501において、新規データが存在すると判定された場合、ステップS502に移行する。
ステップS502において、行動最適化装置1は、環境予測部25の制御の下、新規データと処理に必要なデータとを読み込む。一実施形態では、環境予測部25は、新規データと、ARMAモデルの次数パラメータよりも新規データが少なかった場合は不足分のデータを読み込む。
ステップS503において、行動最適化装置1は、環境予測部25の制御の下、あらかじめ設定された予測式に応じて未来予測を行う。一実施形態では、環境予測部25は、あらかじめ設定された予測式としてARMAモデルを用い、ARMAモデルの重みパラメータの推定を行い、同定した該モデルを用いることにより、今後1日間の予測を行う。ARMAモデルでは、予測値をvt、過去の実測値を(vt-1, vt-2, ..., v0)を、また誤差を(εt-1, εt-2, ..., ε0)としたとき、
Figure 2020022123
と、p個の過去値の加重和で表現される自己回帰モデル(AR:Autoregressive)とq個の誤差の加重和で表現される移動平均モデル(MA:Moving Average)を合わせたモデルで予測を行う。なお、φi,θiは重みを表すパラメータであり、p,qは次数を表すパラメータである。
このうちp,qは、すべての実測値(vt-1, ..., v0)を用いて、偏自己相関のグラフを描画して表れる周期から適切なものを選択したり、赤池情報量基準(AIC:Akaike's Information Criterion)やベイズ情報量基準(BIC:Baysian Information Criterion)を最小化する最尤推定により自動算出したりすることによって、あらかじめ推定しておいたものを利用する。また、あらかじめ最適な値が分かっている場合は設定ファイルに書き込み、該設定ファイル内の値を参照してもよい。またφi,θiは、予測時に与えられる(vt-1, ..., vt-p)と(εt-1, ..., εt-q)を用いて、誤差を最小化する最尤推定によって自動算出を行う。
ステップS504において、行動最適化装置1は、環境予測部25の制御の下、該予測結果を環境データとして環境データ記憶部31に保存する。この際、予測値であることを表すフラグも一緒に保存し、以降の処理においてフラグ値を参照することで予測値と実測値のどちらを使うかを切り替えてもよい。ここでは、「実測値」は、センサシステムSSや施設管理システムMSが観測した実測値(必ず過去時刻)であるのに対し、「予測値」は、環境予測部25または図示しない外部装置が実測値をもとに予測した値(必ず未来時刻)を言う。この実施形態では、ある時刻において、予測値のみの場合は予測値を、予測値と実測値の両方がある場合は実測値をそれぞれ用いることとする。
なお、予測処理は、上記の例に限定されるものではなく、例えば、ARMAモデル以外の予測手法を用いてもよい。例えば、予測手法については、季節自己回帰和分移動平均モデル(SARIMA:Seasonal Autoregressive Integrated Moving Average)といった他の時系列分析手法を用いたり、相関を持つ他種データを用いた重回帰分析といった回帰分析手法を用いたり、長短期記憶ユニット(LSTM:Long-Short Term Memory)といった深層学習手法を用いたりすることも可能である。また、設定ファイルにより適用する環境データ名称と手法をそれぞれ個別に指定してもよい。
このように環境予測部25を設けることにより、外部装置から予測値(例えば、予測人流や予測天気)を取得できない環境においても、以上のようにして取得された予測データを用いて各処理を実施することができる。
(3)環境データの時空間補間
図7は、行動最適化装置1による、取得された環境データに対して時空間補間を行う処理手順と処理内容の一例を示すフローチャートである。一実施形態では、環境データ補間部24がこれらの処理を行う。
図8は、補間対象データの一例を示す。一実施形態では、環境データ補間部24は、図8に示された、10分間隔かつセンサ設置場所に対応した特定位置(以降、「観測点」と言う)のデータ(以降、「ポイントデータ」と言う)から、1分間隔の対象領域内全点のデータ(以降、「エリアデータ」と言う)への補間を行う。なお、エリアデータは2次元に高さを加えた3次元の点について補間したデータであってもよい。また、環境データ補間部24は、所定の時間間隔ごとに自動的に起動するようにしてもよいし、ユーザまたはオペレータからの指示の入力に応じて起動するようにしてもよい。一実施形態では、環境データ補間部24は、1時間ごとに自動的に起動して以下のような処理を行う。
行動最適化装置1は、まずステップS601において、環境データ補間部24の制御の下、前回起動時から環境データ記憶部31に保存された環境データについて新規データが存在するか否かを判定する。図8の例では、環境データ補間部24は、前回起動時刻t0以降の時刻(t10, t20, ..., t60)について、観測点(x1, ..., xn)から得られた値(v10,1, ...,v60,n)が、環境データ記憶部31内に環境データとして存在しているかどうかを判定する。ステップS601において、新規データが存在しないと判定された場合、環境データ補間部24は、処理を終了する。一方、ステップS601において、新規データが存在すると判定された場合、ステップS602に移行する。
ステップS602において、行動最適化装置1は、環境データ補間部24の制御の下、新規データと処理に必要なデータとを読み込む。
次いで、ステップS603において、行動最適化装置1は、環境データ補間部24の制御の下、読み込んだデータに対し、あらかじめ設定された補間式に応じて時空間補間を行う。
より詳細には、環境データ補間部24は、ステップS602で時刻t0の値も追加で読み込み、ステップS603において、観測点xiの10分間隔の値集合
Figure 2020022123
に対して、はじめに、線形補間法を適用し、1分間隔の値集合
Figure 2020022123
を算出する。
例えば、tj < tk ≦ tj+10 を満たす時刻tkの値vk,iの補間式は以下のようになる。
Figure 2020022123
以上をすべての時刻間{(t0, t10), (t10, t20), ..., (t50, t60)}に対して計算し、さらに全観測点に適用することで時間補間を行う。
次に、ある時刻tの観測点n個の値集合
Figure 2020022123
に逆距離荷重法(IDW:Inverse Distance Weighting)を適用し(例えば、Hans Wackernagel原著,地球統計学研究委員会 訳編,青木謙治 監訳,「地球統計学」,森北出版株式会社,2011年8月18日第1版第3刷発行,参照)、未観測点m個を含む値集合
Figure 2020022123
を算出する。例えば、未観測点をuとしたときの補間式は以下となり、
Figure 2020022123
これを未観測点m個すべてに対して計算する。
上記式は、距離の逆数を重みとする加重平均で未観測点の値を求めるものであり、pは近傍点の影響度を調節するパラメータである。パラメータpは、補間時に与えられるxi,vt,iをもとに、誤差を最小化する最尤推定によって自動算出を行う。また、あらかじめ最適な値が分かっている場合は設定ファイルに書き込み、該設定ファイル内の値を参照してもよい。
ステップS604において、行動最適化装置1は、環境データ補間部24の制御の下、以上の処理によって得られた時空間補間された結果を環境データのエリアデータとして環境データ記憶部31に保存する。
なお、時空間補間の手法については、時間補間にスプライン補間を用いたり、空間補間にクリギング(kriging)を用いたり、といった別の手法を指定してもよく、設定ファイル等により適用する環境データ名称と手法を個別に指定してもよい。また、時間補間における補間間隔や、空間補間における補間対象となる未観測点の数と位置や、時間補間と空間補間の処理順番などは、設定ファイル等を通して任意に設定してもよい。
なお、環境予測部25および環境データ補間部24について、一定時間ごとではなく環境データ記憶部31への保存が検出されるたびに各処理を行うようにしてもよい。また、環境予測部25と環境データ補間部24の起動順序は任意であり、環境予測部25の結果に対して環境データ補間部24が補間したり、環境データ補間部24の結果を用いて環境予測部が予測したりするように構成してもよい。
(4)方針情報の取得
次に、GUIを介して入力される方針情報の取得について説明する。
図9は、行動最適化装置1のGUI管理部21によって提供される、種々の処理に関する指示(方針)を入力するためのGUIの一例として、図示しない表示部等に表示される方針入力画面210を示す。GUI管理部21は、このような方針入力画面210を介して、キーボード、マウス、タッチパネル等の入力デバイス(図示せず)を用いてユーザまたはオペレータが入力した方針指示を取り込むことができる。方針入力画面210は、状態、行動、報酬関数、再現手法、探索手法を入力するテキストボックス211〜215と、入力を終了する送信ボタン216とを有するが、これに限定されるものではない。
行動欄212は、探索処理における制御対象を入力する欄である。本実施形態では、「空調」はON/OFFという空調の運転状況を表し、いくつかある中の1つの制御を最適化することを想定しているが、これに限定されるものではない。例えば、行動欄212において、設定温度といった別の行動を設定したり、同対象空間内に設置された複数の空調それぞれの運転状況を設定するように構成してもよい。
また、行動欄212において、制御対象をいくつかの単位でグループ化したり、定められた手続きを予め登録したりといった仮想的な行動を設定するように構成してもよい。これにより、例えば、複数の空調を利用者が多い重点区画とそうではない通常区画のどちらに属するかに応じてグループ化し、「重点空調グループ」と「通常空調グループ」といったグループ単位での仮想行動を設定してもよい。なおグループ化の方法はこれに限らず、例えば外気や日射の影響を受け易い区画、厨房等の熱源を備える区画、イベントが開催される区画といった様々な単位で仮想行動を設定することもできる。
更に、所定の機能を実現するための一連の操作を含む仮想行動を設定してもよい。例えば、空調停止する際は徐々に風量を絞っていくといった製造時に定められた手続きがある場合、その手続きに則った操作を行う「空調停止」という仮想行動を設定することができる。このような仮想行動の他の例として、空調運転前に熱源稼動して蓄熱層の水量や水温を調整するといった依存関係のある複数機器にまたがった操作を行う「起動準備」、供給温度を下げて供給風量を弱めることで除湿効果を高める操作を行う「除湿モード」、サーキュレータやエアカーテンといったアクチュエータを利用したり換気量や供給風量の調整により室内圧力バランスを変更したりすることで気流を生み出す操作を行う「気流制御」などの手続きを設定することも可能である。ただし、これらの具体例に限定されるものではなく、使用目的や使用環境等に応じて多種多様な手続きを仮想行動として採用することができる。また仮想行動は、単一の制御対象に対する操作に係るものであってもよいし、同じ種類の複数の制御対象に対する操作に係るものであってもよいし、異なる種類の複数の制御対象に対する操作に係るものであってもよい。
状態欄211は、行動を変化させた際に影響を受ける環境データの名称を入力する欄である。図では、人流、温度、湿度、外気を利用するように例示されているが、入力データはこれらに限定されず、例えば日射量を含めてもよい。
再現手法欄213は、環境再現部27が行動と状態の関係を予測するための手法を入力する欄である。図では、短期間の天気予報等に用いられている深層学習の畳み込みLSTM(Convolutional LSTM)(例えば、Xingjian Shi, et al., Convolutional LSTM network: A Machine Learning Approach for Precipitation Nowcasting. NIPS, 2015参照)という手法を用いることを例示している。また、当該手法を用いて、入力として行動aと状態sを、出力として1時間後の次状態s’を出力するモデルが既にモデルデータとして定義・保存されているものとする。ただし、これに限定されず、任意時間経過後(例えば10分後や1日後など)の次状態s’を出力したり、重回帰分析といった別手法を用いたり、数値流体力学シミュレータなどの物理シミュレータと連携したり、といった方法を取ってもよい。
探索手法欄214は、行動探索部28が探索を行うための手法を入力する欄である。図では、深層強化学習におけるDeep Q-Networkという手法を用いることを例示しているが、これに限定されず、動的計画法やTD学習といった別の強化学習手法を用いてもよい(例えば、Csaba Szepesvari著,小山田創哲 訳者代表・編集,前田新一・小山雅典 監訳,「速習教科学習−−基礎理論とアルゴリズム」,共立出版株式会社,2017年9月25日初版1刷発行,参照)。
なお、再現手法欄213および探索手法欄214は、あらかじめ対応したモデルないしシミュレータがモデルデータとして登録されており、該モデルの名称を入力することを例示しているが、これに限定されず、例えば直接プログラムを記述してもよい。
報酬関数欄215は、行動探索部28が探索手法欄214の手法にしたがって決定した行動についての評価式を入力する欄である。図では、学習の1サイクルが終了した場合は1サイクルの総消費エネルギー減少量を、それ以外の場合は、その時刻のエネルギー削減量(reward1)と、外気と温度の差のマイナス値(reward2)の和を、それぞれ報酬rとして返すように指定している。後者の場合、それぞれある時刻tにおいて、reward1は消費エネルギー削減が高いほど高い値を示し、省エネ性の観点から電力のピーク値を下げ、reward2は外気と室温の差が低いほど高い値を示し、快適性の観点からヒートショックないしコールドショックを防ぐ効果がそれぞれ期待される。なおこれらに限らず、報酬関数の評価式において、例えば温度と湿度の値から快適指数を算出したり人流による発熱量を考慮したりしてもよい。
さらに、報酬関数の評価式において、一般的に知られる省エネルギーに繋がる操作を高く評価するように考慮してもよい。そのような省エネルギーに繋がる操作の例としては、空調の間欠運転や未使用区画の間引き運転によるピークカット・シフト、業務定時よりも少し前に熱源を停止して保有冷温水のみで空調運転する熱源事前停止、室内よりも室外の方が快適な温度であるときの自然換気活用、冷温水の出入り口温度差を小さくしつつ十分な空調効果が得られるように設定温度を調整する空調機能の余剰削減、逆に冷温水の出入り口温度差を大きくすることで空調が利用する水や空気の量を削減する大温度差化、室内外の温度差による圧力差が大きいときの開口部付近のエアカーテン起動による外気流入防止などが挙げられる。ただし、これらに限定されず、使用目的や使用環境等に応じた多様な操作を考慮することが可能である。またさらに、これらを組み合わせて、重要度に応じた重み付け和の形で指定するようにしてもよい。
なお報酬関数欄215はプログラムを直接記述しているが、これに限定されず、あらかじめ評価式をモデルデータとして登録しておき、その名称を記述してもよい。
図9において、送信ボタン216が押されると、入力が完了したものとして、GUI管理部21は上記の内容を方針管理部22へ出力する。
(5)方針データの生成
図10は、行動最適化装置1による方針データを生成する処理手順と処理内容の一例を示すフローチャートである。一実施形態では、方針管理部22が、GUI管理部21によって出力された方針情報を受け取り、方針情報に基づいて方針データを生成する。
ステップS901において、行動最適化装置1は、方針管理部22による制御の下、GUI管理部21から出力された方針情報を引数として受け取り、引数の中から行動、状態、報酬関数、再現手法、探索手法フィールドを取り出す。
ステップS902において、行動最適化装置1は、方針管理部22による制御の下、引数から取り出した情報をまとめて方針データとして、方針データ記憶部32へ保存する。
ステップS903において、行動最適化装置1は、方針管理部22による制御の下、環境再現部27に対して学習指示を出力して処理を終了する。学習指示は、方針データを含むものであってもよく、方針データが新たに方針データ記憶部32へ保存されたことを示す通知を含むものであってもよい。
図11は、方針管理部22が生成する方針データの一例を示す図である。一実施形態では、方針データは、各方針を一意に識別する「識別子」と、対象空間の制御を表す「行動」と、行動を変化させた際に影響を受ける環境データの名称を表す「状態」と、行動探索部28が学習フェーズで用いる評価式を表す「報酬関数」と、環境再現部27が用いるモデルを表す「再現手法」と、行動探索部28が用いるモデルを表す「探索手法」と、のフィールドからなる。なお、報酬関数、再現手法、探索手法については、プログラムを実行可能な状態に変換したもの(以降、「バイナリ」と言う)を記述したり、モデルデータの名称を記述したりしてもよい。またバイナリをモデルデータとしてデータメモリ30に保存し、その名称ないし識別子を用いてもよい。
以降、方針データの各記述内容に対し、時刻tが与えられたときの、行動フィールドに対応する環境データの値を行動a、状態フィールドに対応する環境データの値を状態s、状態sにおいていくつか想定される複数の行動aの中から1つを選び、それを実施して時刻を1つ進めたときの状態を次状態s’と呼び、更に、報酬関数フィールドの内容を報酬関数R、報酬関数Rに時刻tの行動a、状態s、次状態s’を入力して得られる値を報酬rと呼ぶ。
例えば行動欄に空調と記述されていた場合、環境データとして保存されている空調データの空調フィールドを抽出し、各時刻tにおける行動aとして利用する。なお、例えば "(BEMSデータ,空調)" のような形でデータ名称とフィールド名を個別に設定してもよい。また空調が複数存在する場合、各時刻の行動が空調フィールドだけでは一意に求めることができないため、自動的に識別子フィールドも対象として含め、識別子フィールドと空調フィールドのペアを行動aとして読み込みを行う。なお、例えば "(BEMSデータ、[空調,識別子])" のようにフィールド名を明示してもよい。
再現手法、探索手法および報酬関数について、バイナリが記述されていた場合はそれを評価してモデルデータとしてデータメモリ30へ保存し、その識別子ないし名称で上書きを行ってもよい。なお、方針管理部22は、GUI管理部21からの情報を起動トリガとすることに限らず、例えば施設管理システムMSから必要なパラメータを含む要求を受け付ける機能部を新たに設け、その要求をトリガとして上記方針データの生成処理を行ってもよい。
(6)環境再現モデルの学習
図12は、行動最適化装置1による、対象空間内の環境を制御するための行動を変化させた際に環境がどのように変化するかについて過去データから学習する処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置1は、環境再現部27の制御の下、方針管理部22からの学習指示を受けて環境再現モデルの学習を開始する(学習フェーズ)。学習フェーズにおいて、環境再現部27は、環境再現モデル学習部として機能し、方針管理部22または方針データ記憶部32から方針情報を引数として取得し、全期間のデータを用いて、時刻tの状態sにおいて行動aを実施したときの次状態s’の予測を行う環境再現モデルの学習を行う。施設レイアウト変更が行われたら、そのたびに学習を行うようにしてもよい。
まずステップS1101において、行動最適化装置1は、環境再現部27の制御の下、方針管理部22から出力された引数の中から方針データを取り出す。
ステップS1102において、行動最適化装置1は、環境再現部27の制御の下、再現手法フィールド記載内容に対応する環境再現モデルを読み込む。
ステップS1103において、行動最適化装置1は、環境再現部27の制御の下、全期間の中からいずれかの時刻をランダムに選び、これを時刻tとする。
ステップS1104において、行動最適化装置1は、環境再現部27の制御の下、時刻tのときの行動a、状態s、次状態s’の読込要求を環境拡張部26に送り、該データを得る。ただし、このステップは任意であり、環境再現部27がデータメモリ30から直接、時刻tのときの行動a、状態s、次状態s’を読み込むように構成してもよい。環境拡張部26の処理については後述する。
ステップS1105において、行動最適化装置1は、環境再現部27の制御の下、読み込んだ環境再現モデルに状態sと行動aを入力し、出力された予測値である状態fsと正解値となる次状態s’の差分を算出し、誤差逆伝搬法といった公知技術(例えば、C.M.ビショップ著,元田浩 他 監訳,「パターン認識と機械学習 上」,丸善出版株式会社,平成28年7月30日第7刷発行,参照)を用いて環境再現モデルの各パラメータを更新する。
ステップS1106において、行動最適化装置1は、環境再現部27の制御の下、上記パラメータ更新の差分があらかじめ定められた閾値以下であるか否かの判定を行う。閾値以下でないと判定された場合、環境再現部27は、ステップS1103に戻り、ステップS1103〜S1105の処理を繰り返す。ステップS1106において、パラメータ更新の差分が閾値以下になったと判定されたら、ステップS1107に移行する。
ステップS1107において、行動最適化装置1は、環境再現部27の制御の下、パラメータ更新をした環境再現モデルをモデルデータとしてモデルデータ記憶部33に保存し、処理を終了する。
なお、GUI管理部21によって提供される方針入力画面210に新たに開始時刻欄と終了時刻欄を設け、ユーザによる該入力を受け付けて方針管理部22に出力し、更に方針管理部が該入力値を環境再現部27にわたすことにより、指定期間のデータを用いた学習を行うようにしてもよい。
環境データ補間部24により補間されたエリアデータを用いた上記学習により、対象空間内に存在する相互作用を考慮した制御変更による影響を見積もることができるようになる。
(7)データの拡張処理
上記のように、環境再現部27は、学習処理において、拡張処理を施されたデータを用いることができる。
図13は、行動最適化装置1によるデータ拡張の処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置1の環境拡張部26によってデータ拡張処理が行われる。この処理は、環境再現部27による学習フェーズで用いられることのできる任意の処理である。
ステップS1201において、行動最適化装置1は、環境拡張部26の制御の下、引数から時刻tを取り出す。
ステップS1202において、行動最適化装置1は、環境拡張部26の制御の下、指定された時刻tの行動a、状態s、次状態s’を読み込む。
ステップS1203において、行動最適化装置1は、環境拡張部26の制御の下、環境再現モデルにおいて入力となる行動aと状態s(以降、合わせて「入力側」と言う)および出力となる次状態s’(以降、「出力側」と言う)の関係を崩さない範囲で、乱数に基づくデータ拡張処理を行う。
ステップS1204において、行動最適化装置1は、環境拡張部26の制御の下、データ拡張を施した[状態s,次状態s’,行動a]を処理結果として呼び出し元(ここでは環境再現部27)に返却する。
なお、環境拡張部26は、環境再現部27からの要求に応じて起動することに限定されず、例えば環境予測部25や環境再現部27のように、一定時間ごとにまたはデータメモリ30への保存を検出して起動し、データ拡張処理を行った拡張データを環境データとして環境データ記憶部31に保存するようにしてもよい。この際、拡張フラグを環境データに付与し、フラグ値を参照して拡張データと非拡張データのどちらを使うかを切り替えるようにしてもよい。
一実施形態では、あらかじめ設定ファイルにより、適用する環境データ名称とデータ拡張手法を個別に設定しておき、該設定ファイルの内容に従ってデータ拡張を行うことができる。
また、例えば複数の空調を行動として指定していた場合、あらかじめ定義した各空調が受け持つ施設内の空間範囲(以下、「空調エリア」と言う)の位置とサイズからなるエリア情報のリストを設定ファイルに記述しておき、該設定ファイルをもとにエリアデータの各点のデータがどの空調エリアに属すかの判定によりデータを分割し、分割されたデータ単位でデータ拡張を行ってもよい。
以上により、例えば、入力側の温度データに対してノイズを乗せた場合は、温度データの実測値のゆれを許容するようなロバスト性の高い再現モデルの学習が可能となる。またエリア単位で共通のマスク処理を入力側と出力側の両方にかけた場合は、エリア間の相互作用を考慮した、または切り離した学習が可能となる。エリア1箇所だけが残るようなマスク処理がされた場合は、自エリアのみのデータを用いて各エリアの学習が進むことでエリア間の関係を切り離した予測が可能となり、例えば複数の空調の制御タイミングが一致したデータしか観測できなかった場合でも個別に空調を制御した場合の予測をすることができるようになる。またエリア複数箇所が残るようなマスク処理がされた場合は、自エリアだけでなく他エリアのデータも用いて各エリアの学習が進むことでエリア間の関係を考慮した予測が可能となり、例えば冷暖気の流入や熱溜まりが出やすいといったエリア特性を考慮することができるようになる。乱数によって上記が混在した学習が進むため、少ないデータ量で多様なバリエーションについての自然な予測が可能となる。
(8)環境再現モデルを用いた評価
図14は、行動最適化装置1による、学習済みの環境再現モデルを用いて、指定時刻tの状態sで行動aを実施したときの次状態s’の予測(ここでは、「評価」とも言う)を行う処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置1は、環境再現部27の制御の下、行動探索部28からの評価指示を受けて評価処理を開始する(評価フェーズ)。
ステップS1301において、行動最適化装置1は、環境再現部27の制御の下、行動探索部28から評価指示とともに送信された情報を引数として受け、引数の中から、方針データ、時刻t、期間tr、行動aを取り出す。
ステップS1302において、行動最適化装置1は、環境再現部27の制御の下、取り出した行動aが空か否かを判定する。行動が空ではないと判定された場合、ステップS1303に移行する。一方、ステップS1302において、行動aが空と判定された場合、ステップS1304に移行し、行動探索部28からの上記評価指示を初期状態取得命令であると判定して、時刻tの状態sを次状態s’とし、報酬rを0として、ステップS1308に移行する。
ステップS1303において、行動最適化装置1は、環境再現部27の制御の下、取り出した方針データをもとに、学習済みの環境再現モデルと報酬関数Rを読み込む。
続いて、ステップS1305において、行動最適化装置1は、環境再現部27の制御の下、時刻tの状態sを読み込むが、前回処理で予測した次状態s’がメモリ上に残っていた場合はそちらを状態sとして利用する。
ステップS1306において、行動最適化装置1は、環境再現部27の制御の下、環境再現モデルに状態sと行動aを入力して、出力された予測状態fsを次状態s’とする。
ステップS1307において、行動最適化装置1は、環境再現部27の制御の下、報酬関数Rに状態s、次状態s’、行動aを入力して報酬rを取得する。
ステップS1308において、行動最適化装置1は、環境再現部27の制御の下、処理の終了手続きとして、要求元(ここでは行動探索部28)に次状態s’と報酬rを出力する。
ステップS1309において、行動最適化装置1は、環境再現部27の制御の下、次に時刻t+1の予測を行う場合に、時刻tの状態sとして実測値ではなく予測値を用いて処理を行うことができるよう、次状態s’をメモリ上に保存する。ただし、時刻tが期間trを超えていた場合、時刻t+1の予測要求は行われないため保存しない。
なお、要求元に出力する次状態s’について、行動aの変更による影響を受けないフィールドsがあらかじめ分かっている場合は、あらかじめ設定ファイルに方針データ識別子と状態フィールドsのペアを記述し、該設定ファイルをもとに、該フィールドsを環境再現モデルで算出した値ではなく、データメモリ30上に存在する時刻tの次状態s’に含まれるsの値で上書きして返却してもよい。また学習フェーズにおいて、環境再現モデルの出力から該sフィールドを削除した上で学習を行ってもよい。
(9)探索指示の取得
次に、GUIを介して入力される探索指示の取得について説明する。
図15は、行動最適化装置1のGUI管理部21によって提供される、行動探索に関する指示を入力するためのGUIの一例として、図示しない表示部等に表示される探索指示の入力画面220を示す。GUI管理部21は、このような探索指示入力画面220を介して、キーボード、マウス、タッチパネル等の入力デバイス(図示せず)を用いてユーザまたはオペレータが入力した探索指示を取り込むことができる。探索指示入力画面220は、開始時刻、終了時刻、方針データ、送信先を入力するテキストボックス221〜224と、種別を入力するラジオボタン225と、入力を終了する送信ボタン226を有するが、これに限定されるものではない。
開始時刻欄221と終了時刻欄222は、どの期間のデータを用いるかを入力する欄である。
方針データ欄223は、方針管理部が出力した方針データの識別子を入力する欄である。
種別欄225は、行動探索部28に対し、学習指示と評価指示のどちらを送信するかを選択する欄である。
送信先欄224は、種別欄225が評価指示になっているときに追加で入力が必要となり、評価フェーズにより出力された探索結果を送信する先を入力する欄である。本実施例においては、施設管理システムMSがHTTP通信で探索結果を受け付けるAPIを備えており、該APIのURLを入力することを想定しているが、これに限らず、例えば特定プロトコルによる通信方法を記述してもよい。
送信ボタン226が押され入力が完了すると、GUI管理部21は上記の内容を行動探索部28へ出力する。この際、学習フェーズと評価フェーズのどちらかが種別欄225の入力値に応じて自動的に選ばれる。
(10)探索モデルの学習
図16は、行動最適化装置1による行動探索に使用される探索モデルを学習する処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置1は、行動探索部28の制御の下、GUI管理部21からの学習指示を受けて探索モデルの学習を開始する(学習フェーズ)。学習フェーズにおいて、行動探索部28は、探索モデル学習部として機能し、GUI管理部21から送信された情報を引数として取得し、指定期間のデータを用いて、各時刻tにおける状態sに対し最適な次状態s’へ遷移する行動aの予測を行う探索モデルの学習を行う。
ステップS1501において、行動最適化装置1は、行動探索部28の制御の下、引数の中から、方針データ、開始時刻、終了時刻を取り出す。
ステップS1502において、行動最適化装置1は、行動探索部28の制御の下、取り出した方針データの探索手法フィールド記載内容に対応する探索モデルを読み込む。
ステップS1503において、行動最適化装置1は、行動探索部28の制御の下、さらに、開始時刻と終了時刻の間のいずれかの日をランダムに選択し、その日の00:00を時刻tとする。
ステップS1504において、行動最適化装置1は、行動探索部28の制御の下、時刻tおよび空の行動aと開始時刻と終了時刻からなる期間trを環境再現部27に出力して、初期状態sを取得する。なお、時刻は00:00でなくてもよく、例えば夜間の最適化が不要な場合は施設の営業開始時(09:00など)を指定してもよい。
ステップS1505において、行動最適化装置1は、行動探索部28の制御の下、探索モデルに状態sを入力し、次にすべき行動aを取得する。行動aを取得する際、複数ある候補の中から探索モデルが選択した最良候補を選出するだけでなく、未知の探索を進めるべく一定の確率でランダムな候補を選出してもよい。
続いて、ステップS1506において、行動最適化装置1は、行動探索部28の制御の下、環境再現部27に時刻t、行動a、期間trを出力し、次状態s’、報酬rを取得する。
ステップS1507において、行動最適化装置1は、行動探索部28の制御の下、時刻t、状態s、次状態s’、報酬r、行動aからなる結果を用いて、誤差逆伝搬法といった公知技術を用いて探索モデルの各パラメータを更新する(例えば、C.M.ビショップ著,元田浩 他 監訳,「パターン認識と機械学習 上」,丸善出版株式会社,平成28年7月30日第7刷発行,参照)。なお、パラメータを都度更新するのではなく、一時的に該結果をメモリ上に保存することで、複数の結果を用いてパラメータ更新をバッチ処理的に行ったり、連続する時刻t1とt2の結果を用いて、先読報酬r’=r1+r2を求め、時刻t1、状態s1、次状態s2’、報酬r’としてパラメータ更新を行ったりしてもよい。
ステップS1508において、行動最適化装置1は、行動探索部28の制御の下、時刻tが終了時刻を超えたかどうかを判定する。時刻tが終了時刻を超えていないと判定された場合、ステップS1509に移行し、時刻tを1つ進め、次状態s’を状態sに代入した上で、ステップS1505〜ステップS1507の処理を繰り返す。
一方、ステップS1508において、時刻tが終了時刻を超えたと判定された場合、ステップS1510に移行する。
ステップS1510において、行動最適化装置1は、行動探索部28の制御の下、パラメータ更新差分があらかじめ定められた閾値以下であるか否かを判定する。ステップS1510においてパラメータ更新差分が閾値以下でないと判定された場合、学習余地がまだあるものとして、ステップS1503に移行し、別の日のデータをもとに学習を繰り返す。ステップS1510においてパラメータ更新差分が閾値以下であると判定された場合、ステップS1511に移行する。
ステップS1511において、行動最適化装置1は、行動探索部28の制御の下、パラメータ更新をした探索モデルをモデルデータとしてモデルデータ記憶部33に保存し、処理を終了する。
このように、行動最適化装置1は、行動探索部28の制御の下、学習フェーズにおいて環境再現部27とやり取りをしながら探索モデルの学習を行う。
(11)探索モデルを用いた評価
図17は、行動最適化装置1による、学習済みの探索モデルを用いて、行動探索を行う処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置1は、行動探索部28の制御の下、GUI管理部21によって出力された評価指示を受けて評価処理を開始する(評価フェーズ)。例えば、行動探索部28が1日ごとに評価処理を行い、その後1日分の探索結果を生成するように構成することができる。
評価フェーズでは、基本的には学習フェーズと同様の手順で処理が行われるが、開始時刻から終了時刻まで連続的に時刻tを進めながら状態sに対し最適な次状態s’へ遷移する行動aを評価する点と、探索モデルの更新を行わない点と、処理終了前に取得した行動aのリストを探索結果として保存する点と、が異なる。なお、探索結果は、生成する際に用いた方針データの識別子等のメタデータも含むことができる。
ステップS1601において、行動最適化装置1は、行動探索部28の制御の下、引数の中から、方針データ、開始時刻、終了時刻、送信先を取り出す。
ステップS1602において、行動最適化装置1は、行動探索部28の制御の下、取り出した方針データの探索手法フィールド記載内容に対応する、学習済みの探索モデルを読み込む。
ステップS1603において、行動最適化装置1は、行動探索部28の制御の下、さらに、開始時刻を時刻tとする。
ステップS1604において、行動最適化装置1は、行動探索部28の制御の下、時刻tおよび空の行動aと開始時刻と終了時刻からなる期間trを環境再現部27に出力して、初期状態sを取得する。
ステップS1605において、行動最適化装置1は、行動探索部28の制御の下、探索モデルに状態sを入力し、次にすべき行動aを取得する。
ステップS1606において、行動最適化装置1は、行動探索部28の制御の下、その後、環境再現部27に時刻t、行動a、期間trを出力し、次状態s’、報酬rを取得する。
ステップS1607において、行動最適化装置1は、行動探索部28の制御の下、時刻tが終了時刻を超えたかどうかを判定する。時刻tが終了時刻を超えていないと判定された場合、ステップS1608に移行し、時刻tを1つ進め、次状態s’を状態sに代入した上で、ステップS1605〜ステップS1606の処理を繰り返す。一方、ステップS1607において、時刻tが終了時刻を超えたと判定された場合、ステップS1609に移行する。
ステップS1609において、行動最適化装置1は、行動探索部28の制御の下、取得した行動aのリストを探索結果として探索結果記憶部34に保存する。
ステップS1610において、行動最適化装置1は、行動探索部28の制御の下、送信制御部29に、引数から取り出した送信先とともに、探索結果、または探索結果を送信すべき旨の通知を出力する。
このように、行動探索部28は、評価フェーズにおいても、環境再現部27とやり取りをしながら探索処理を行う。
なお、行動探索部28の学習フェーズおよび評価フェーズについて、GUI管理部21からの情報による起動に限らず、例えば一定時間ごとにまたはデータメモリ30への保存といったイベントを行動探索部28自身が検出して対応する処理を行うように構成してもよい。その際、方針データ、開始時刻、終了時刻、送信先といった必要なパラメータ、起動フェーズ、該イベントのセットを設定ファイルに記述しておくことができる。
(12)探索結果の出力
図18は、行動最適化装置1が施設管理システムMSに対して探索結果を送信する処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置1は、送信制御部29の制御の下、この処理を実行する。
ステップS1701において、行動最適化装置1は、送信制御部29の制御の下、行動探索部28の評価フェーズから出力された情報を引数として、引数から、送信先および探索結果を取り出す。
ステップS1702において、行動最適化装置1は、送信制御部29の制御の下、指定された送信先に対して探索結果を送信する処理を行う。
ただし、探索結果の出力はこの手順に限定されず、施設管理システムMSからの探索結果取得要求に応じる形で起動したり、GUI管理部21に当該命令送信画面を新たに設け、該画面を経由したユーザ指示により起動したりするようにしてもよい。
図19は、出力される探索結果の一例を示す図である。探索結果は、制御を変化させるタイミングを表す「時刻」と、いくつかある制御についてそれぞれどのように変化させるかを表す「行動」と、のフィールドからなる。ただし、探索結果の各フィールド項はこれらに限定されるものではなく、例えば、変化タイミングだけを要約するのではなく全時刻を出力したり、制御の数だけ識別子に対応する名称を持ったフィールドを増減したりしてもよい。
なお、上記のように、この実施形態では、ある時刻において、実測値に基づいて予測された予測値のみが取得可能な場合は予測値を、予測値と実測値の両方が取得可能な場合は実測値を用いることとしているが、予測値が使われるケースとしては、例えば、以下が挙げられる。
・行動探索部28が、評価フェーズにおいて、未来期間の行動最適化を行う場合(例えば、その時点から1日分の探索結果を算出する場合)。
・環境再現部27が、評価フェーズにおいて、自身が予測するよりも既存の予測値の方が精度が高いことがわかっている場合(例えば、予測外気温を気象庁から取得していた場合)なお後者の場合、環境再現モデルの出力側の外気温は使われないことになるので、環境再現部27において、設定ファイルを通して環境再現モデルの出力から外気温データを削除した上で学習フェーズと評価フェーズのそれぞれが実行される。
(実施例2)
図20は、この発明の一実施形態に係る行動最適化装置1を含むシステムの全体構成の第2の例を示す図である。この例では、行動最適化装置1は、対象空間内の環境を制御するための行動として、対象領域内の汚れ状況をゴミセンサを用いて検出し、対象領域内の清掃を最適化することが想定されている。図1に示したシステムと比較して、センサシステムSSが、センサSs1, ...,Ssnに加えて、追加のセンサとして、掃除機(または掃除機が備えるセンサ)Sm1、空気清浄機(または空気清浄機が備えるセンサ)Sm2、カメラSm3を備えている。これら追加のセンサにより、例えば、掃除機が吸い込んだゴミの量を赤外線センサで測定したデータ、空気清浄機のほこりセンサの値、カメラの画像から汚れ部分を検出したデータなど、汚れを表す情報を含む環境データが取得される。
図21は、実施例2のシステムにおいて行動最適化装置1のGUI管理部21が提供し得るGUIの一例として清掃最適化の方針入力画面250を示す図である。方針入力画面250は、状態、行動、報酬関数、再現手法、探索手法を入力するテキストボックス251〜255と、入力を終了する送信ボタン256とを有するが、これに限定されるものではない。
方針入力画面250は、図9に示した方針入力画面210と比較して、入力内容が変化しており、それぞれ、行動欄252では掃除状態(つまり当該時間に掃除を行う)を制御として入力し、状態欄251では汚れと人流を入力し、報酬関数欄255では学習1サイクルが終了した場合は1日の総汚れ除去量を、それ以外は掃除を実施した場合に人流量に応じて+1または−1を(掃除を行わない場合は0)それぞれ返すような入力を例示している。また、再現手法欄253では再現モデルとして重回帰を、探索手法欄254では探索モデルとして動的計画法をそれぞれ利用するような入力を例示している。ただし入力はこれに限らず、例えば、行動欄252にどの程度重点的に掃除を行うべきかを表す掃除強度を指定したり、状態欄251に床の材質を追加したり、報酬欄255に掃除に要する時間を最小化するような項目を追加したりしてもよい。
その他、実施例2に係るシステムにおいて、行動最適化装置1が備える構成および各々の動作は、実施例1と同様であるので、詳細な説明は省略する。
(効果)
以上詳述したように、この発明の一実施形態では、行動最適化装置1が、センサシステムSSまたは施設管理システムMSから制御対象である空間に関する環境データを取得し、取得された環境データに対して時空間補間を行う。この時空間補間された環境データに基づいて、環境再現部27により、環境の状態と当該環境を制御するための行動を入力したときに、その行動後の環境の状態の正解値が出力されるように、環境再現モデルを学習させ、学習済みの環境再現モデルに基づいて、環境の変化(時刻tの状態sにおいて行動aを実施したときの次状態s’)の予測が行われる。また一方、行動探索部28により、環境再現部27とやり取りしながら、各時刻tにおける状態sに対し最適な次状態s’へ遷移する行動aの予測を行う探索モデルの学習が行われ、やはり環境再現部27とやり取りしながら、学習済み探索モデルに基づいて、各状態についてとるべき適切な行動のリストが取得され、出力される。
したがって、一実施形態によれば、実際に取得された環境データに基づいて未来の環境データの変化を事前に予測したうえで、環境再現部27および行動探索部28により学習および評価を行っているので、信頼性の高いフィードフォワード制御による、とるべき行動の最適化を実現することができる。これにより、オフィスビルなどの建物や施設の管理において、空調や清掃等の任意の管理対象について適切な制御スケジュールが得られ、空間内の環境の変化に適時的に対応した、効率的な管理運用が可能となる。
また、取得された環境データに対し、環境データ補間部24により時空間補間を行うようにしているので、局所的な環境条件の変化も考慮に入れた、対象空間全体としての制御効果をふまえた学習および評価を行うことができる。これにより、熱溜まりなどの環境条件の不均一性に起因する問題が解消される。また、隣接空間からの影響も考慮されるので、対象空間内に存在する相互作用までも考慮した、より高精度の行動探索を実現することができる。
さらに、環境予測部25を設けて、取得された環境データから未来予測を行い、環境予測データを得られるようにしている。これにより、外部装置等から予測値(例えば予測人流、予測天気)を取得できない環境においても、環境予測データを用いて行動探索をはじめとする各処理を実施することができる。
GUI管理部21により、行動最適化の方針や、学習フェーズの起動タイミング、評価フェーズの起動タイミングおよび対象期間などを容易に設定できるので、ビルや設備の状況に応じたフレキシブルな制御を行うことができる。また、方針管理部22により、GUIを介して入力された種々の指示が方針データとして管理され、指定されたパラメータ(再現手法、環境再現モデル、報酬関数等)とモデルデータとの関係が適切に整理される。
さらに、環境拡張部26により、見かけ上のデータを増やすことができるので、環境再現部27または行動探索部28が学習を開始する前に十分な量の環境データを取得するために要する時間を短縮することができる。また、乱数を用いたデータ拡張により、予測処理のロバスト性が向上するので、拡張処理を施された環境データの信頼性を高めることができる。
さらに、行動最適化装置1の探索処理における制御対象として、空調のON/OFFといった切替制御に加えて、設定温度などの詳細な設定や、複数の空調それぞれの運転状況など、多様な対象を設定することができ、目的や環境に応じたフレキシブルな制御を実現することができる。また、制御対象をあらかじめグループ化することによって得られる制御対象グループに対するグループ単位での行動を、探索処理の対象とすることもできる。これにより、例えば、利用者が多い区画と少ない区画、利用者の移動量が多い区画と少ない区画、外気や日射の影響を受けやすい区画と受けにくい区画、厨房等の熱源を備える区画と備えない区画、イベントが開催される区画とされない区画、飲食物が提供される区画とされない区画など、任意の基準に基づくグループ分けにより、実際の環境を考慮した適確な制御を行うことができる。またさらに、所定の機能を果たすための一連の操作を含む仮想行動を探索処理の対象とすることもできる。このように、例えば空調機器における「起動準備」や「除湿モード」など、製造時にあらかじめ設定された手続きや動作モードがある場合に、そのような一連の操作をまとめて仮想行動として扱うことで、より効率的な制御を行うことができる。
またさらに、報酬関数において、一般的に知られる省エネルギーに繋がる操作を高く評価することもできる。これにより、省エネルギーに繋がる操作を積極的に活用した、適確な行動の探索および制御を行うことができる。
[他の実施形態]
なお、この発明は上記実施形態に限定されるものではない。例えば、一実施形態では、環境データの実測値を取得し、時空間補間を行って、種々の処理に用いるものとして説明したが、必要に応じて、過去に得られた予測値を環境データの一部として用いてもよい。これにより、センサの故障や通信エラーにより一定期間データが得られなかった場合でも、適宜データを補充して処理に用いることができる。また、データの補間や予測には、以上で説明した技法に限定されることなく、様々な技法を用いることができる。
上記実施形態では、GUI管理部21により指示入力用のGUIを提供するものとして記載したが、これらは必須の構成ではなく、他の任意の形式で方針データを取得してもよい。例えば、データメモリ30に初期設定を示すデータセットをあらかじめ格納しておき、このデータセットを方針データとして読み出すようにしてもよい。あるいは、CUI(Character User Interface)を採用し、ユーザがキーボード入力により指示を入力するようにしてもよい。
また上記のように、環境再現部27または行動探索部28による学習は、任意のタイミングで開始されてよく、状況や制御対象に応じてユーザ等が随時タイミングを変更できるようにしてもよい。
上記実施形態では、行動探索部28が、与えられた環境の状態に対して最適な次状態へ遷移する行動を探索するものとして説明したが、必ずしもこれに限定されるものではない。例えば、行動探索部28による探索結果として必ずしも最適な行動だけが出力されることを要求するものではなく、次善の行動、または一時的もしくは一面的に見れば最適ではないと評価され得る行動が含まれてもよい。行動探索部28は、学習または評価に際し、多様な環境の状態に対して、多様な行動を出力し得る。また、行動探索部28は、学習または評価に際し、最適条件の探索または最適探索として知られている多種多様な技法を採用することができる。
その他、実測値の種類や方針データの内容等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
(付記)
上記各実施形態の一部または全部は、特許請求の範囲のほか以下の付記に示すように記載することも可能であるが、これに限られない。
[C1]
対象空間内の環境を制御するための行動を最適化する、行動最適化装置であって、
前記対象空間内の環境の状態に関する環境データを取得する環境データ取得部と、
前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行う環境データ補間部と、
前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させる環境再現モデル学習部と、
前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させる探索モデル学習部と、
前記環境再現モデルを使用して、第1の環境の状態および第1の行動に対応する第2の環境の状態を予測する環境再現部と、
前記探索モデルを使用して、前記第2の環境の状態に対して取るべき第2の行動を探索する行動探索部と、
前記行動探索部による探索の結果を出力する出力部と
を具備する、行動最適化装置。
[C2]
前記行動探索部は、探索された前記第2の行動を、前記環境再現部に対して出力し、
前記環境再現部は、前記環境再現モデルを使用して、前記第2の環境の状態と前記行動探索部から出力された前記第2の行動とに対応する第3の環境の状態をさらに予測し、
前記行動探索部は、前記探索モデルを使用して、前記第3の環境の状態に対して取るべき第3の行動をさらに探索する、上記C1に記載の行動最適化装置。
[C3]
前記環境再現部は、あらかじめ設定された報酬関数に基づいて、前記第2の環境の状態に対応する報酬をさらに出力し、
前記探索モデル学習部は、前記環境再現部から出力される報酬に基づいて前記探索モデルの学習結果を更新する、上記C1に記載の行動最適化装置。
[C4]
前記環境データに基づいて、あらかじめ設定された時系列分析方法を用いて未来予測を行い、環境予測データを生成する、環境予測部をさらに備え、
前記行動探索部は、前記探索モデルに対して前記環境予測データを使用して、取るべき行動を探索する、上記C1に記載の行動最適化装置。
[C5]
前記環境データに対して乱数に基づくデータ拡張を行う、環境拡張部をさらに備え、
前記環境再現モデル学習部は、前記データ拡張を施された環境データを用いて前記環境再現モデルを学習させる、上記C1に記載の行動最適化装置。
[C6]
前記環境再現モデル学習部、前記探索モデル学習部、前記環境再現部または前記行動探索部が処理に用いるべき情報を指定する方針データを取得する、方針データ取得部をさらに備える、上記C1に記載の行動最適化装置。
[C7]
前記行動探索部は、前記第2の行動として、複数の制御対象を所定の基準に基づいてあらかじめグループ化して得られる制御対象グループに対するグループ単位の行動、または所定の機能を実現するための1もしくは複数の制御対象に対する一連の行動を探索する、上記C1に記載の行動最適化装置。
[C8]
対象空間内の環境を制御するための行動を最適化する行動最適化装置が実行する、行動最適化方法であって、
前記対象空間内の環境の状態に関する環境データを取得する過程と、
前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行う過程と、
前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させる過程と、
前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させる過程と、
前記環境再現モデルを使用して、第1の環境の状態および第1の行動に対応する第2の環境の状態を予測する過程と、
前記探索モデルを使用して、前記第2の環境の状態に対して取るべき第2の行動を探索する過程と、
探索の結果を出力する過程と
を具備する、行動最適化方法。
[C9]
上記C1乃至C7の何れかに記載の装置の各部による処理をプロセッサに実行させるプログラム。
1…行動最適化装置
10…入出力インタフェースユニット
20…制御処理ユニット
20A…ハードウェアプロセッサ
20B…プログラムメモリ
21…GUI管理部
22…方針管理部
23…環境データ取得部
24…環境データ補間部
25…環境予測部
26…環境拡張部
27…環境再現部
28…行動探索部
29…送信制御部
30…データメモリ
31…環境データ記憶部
32…方針データ記憶部
33…モデルデータ記憶部
34…探索結果記憶部
210…方針入力画面
220…探索指示入力画面
250…方針入力画面

Claims (9)

  1. プロセッサと、当該プロセッサに接続されたメモリとを備える、対象空間内の環境を制御するための行動を最適化する行動最適化装置であって、
    前記プロセッサが、
    前記対象空間内の環境の状態に関する環境データを取得し、
    前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行い、
    前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させ、学習済みの環境再現モデルを前記メモリに記憶させ、
    前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させ、学習済みの探索モデルを前記メモリに記憶させ、
    前記メモリに記憶された前記学習済みの環境再現モデルを読み出し、読み出した前記学習済みの環境再現モデルを使用して、第1の環境の状態および第1の行動に対応する第2の環境の状態を予測し、
    前記メモリに記憶された前記学習済みの探索モデルを読み出し、読み出した前記学習済みの探索モデルを使用して、前記第2の環境の状態に対して取るべき第2の行動を探索し、
    前記探索の結果を出力する
    ように構成された、行動最適化装置。
  2. 前記プロセッサがさらに、
    探索された前記第2の行動をもとに、前記学習済みの環境再現モデルを使用して、前記第2の環境の状態と前記第2の行動とに対応する第3の環境の状態をさらに予測し、
    前記学習済みの探索モデルを使用して、前記第3の環境の状態に対して取るべき第3の行動をさらに探索する
    ように構成された、請求項1に記載の行動最適化装置。
  3. 前記プロセッサがさらに、
    前記学習済みの環境再現モデルを使用して第1の環境の状態および第1の行動に対応する第2の環境の状態を予測する際に、あらかじめ設定された報酬関数に基づいて前記第2の環境の状態に対応する報酬をさらに出力し、
    前記学習済みの探索モデルを使用して前記第2の環境の状態に対して取るべき第2の行動を探索する際に、前記報酬に基づいて前記探索モデルの学習結果を更新する
    ように構成された、請求項1に記載の行動最適化装置。
  4. 前記プロセッサがさらに、
    前記環境データに基づいて、あらかじめ設定された時系列分析方法を用いて未来予測を行い、環境予測データを生成し、
    前記探索モデルに対して前記環境予測データを使用して、取るべき行動を探索する
    ように構成された、請求項1に記載の行動最適化装置。
  5. 前記プロセッサがさらに、
    前記環境データに対して乱数に基づくデータ拡張を行い、
    前記データ拡張を施された環境データを用いて前記環境再現モデルを学習させる
    ように構成された、請求項1に記載の行動最適化装置。
  6. 前記プロセッサがさらに、
    前記環境再現モデルの学習、前記探索モデルの学習、前記第2の環境の状態の予測、および前記第2の行動の探索のうちの少なくとも1つの処理に用いるべき情報を指定する方針データを取得する
    ように構成された、請求項1に記載の行動最適化装置。
  7. 前記プロセッサがさらに、
    前記第2の行動として、複数の制御対象を所定の基準に基づいてあらかじめグループ化して得られる制御対象グループに対するグループ単位の行動、または所定の機能を実現するための1もしくは複数の制御対象に対する一連の行動を探索する
    ように構成された、請求項1に記載の行動最適化装置。
  8. プロセッサと当該プロセッサに接続されたメモリとを備える行動最適化装置が、対象空間内の環境を制御するための行動を最適化する、行動最適化方法であって、
    前記対象空間内の環境の状態に関する環境データを取得することと、
    前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行うことと、
    前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させ、学習済みの環境再現モデルを前記メモリに記憶させることと、
    前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させ、学習済みの探索モデルを前記メモリに記憶させることと、
    前記メモリに記憶された前記学習済みの環境再現モデルを読み出し、読み出した前記学習済みの環境再現モデルを使用して、第1の環境の状態および第1の行動に対応する第2の環境の状態を予測することと、
    前記メモリに記憶された前記学習済みの探索モデルを読み出し、読み出した前記学習済みの探索モデルを使用して、前記第2の環境の状態に対して取るべき第2の行動を探索することと、
    探索の結果を出力することと
    を具備する、行動最適化方法。
  9. 対象空間内の環境を制御する行動を最適化するためのプログラムを記憶した非一時的な有形のコンピュータ可読記憶媒体であって、前記プログラムは、
    前記対象空間内の環境の状態に関する環境データを取得することと、
    前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行うことと、
    前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させることと、
    前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させることと、
    前記環境再現モデルを使用して、第1の環境の状態および第1の行動に対応する第2の環境の状態を予測することと、
    前記探索モデルを使用して、前記第2の環境の状態に対して取るべき第2の行動を探索することと、
    探索の結果を出力することと
    をプロセッサに実行させるための命令を備える、コンピュータ可読記憶媒体。
JP2020532306A 2018-07-27 2019-07-16 行動最適化装置、方法およびプログラム Active JP7014299B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018141754 2018-07-27
JP2018141754 2018-07-27
PCT/JP2019/027911 WO2020022123A1 (ja) 2018-07-27 2019-07-16 行動最適化装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2020022123A1 true JPWO2020022123A1 (ja) 2020-12-17
JP7014299B2 JP7014299B2 (ja) 2022-02-01

Family

ID=69180432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020532306A Active JP7014299B2 (ja) 2018-07-27 2019-07-16 行動最適化装置、方法およびプログラム

Country Status (5)

Country Link
US (1) US11808473B2 (ja)
EP (1) EP3832556B1 (ja)
JP (1) JP7014299B2 (ja)
CN (1) CN112400179A (ja)
WO (1) WO2020022123A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6833138B2 (ja) * 2018-12-12 2021-02-24 三菱電機株式会社 空調制御装置及び空調制御方法
WO2020218632A1 (ko) * 2019-04-23 2020-10-29 엘지전자 주식회사 인공지능 장치
CN111609534B (zh) * 2020-05-25 2022-02-25 珠海拓芯科技有限公司 温度控制方法、装置及中央温度控制系统
WO2021250770A1 (ja) * 2020-06-09 2021-12-16 三菱電機株式会社 空気調和装置の制御のための学習装置および推論装置
WO2022054176A1 (ja) * 2020-09-09 2022-03-17 日本電信電話株式会社 制御対象デバイス選択装置、制御対象デバイス選択方法およびプログラム
JP7405271B2 (ja) 2020-09-09 2023-12-26 日本電信電話株式会社 デバイス制御値生成装置、デバイス制御値生成方法、プログラム、および、学習モデル生成装置
WO2022059137A1 (ja) * 2020-09-17 2022-03-24 三菱電機株式会社 空調システム、学習装置、および推論装置
CN112866021B (zh) * 2021-01-12 2021-11-09 中移(成都)信息通信科技有限公司 基于深度强化学习的ai智慧节能动态控制方法
KR20220141086A (ko) * 2021-04-12 2022-10-19 한온시스템 주식회사 보간법을 활용한 인공지능 공조 제어 시스템 및 그 방법
CN118176391A (zh) * 2021-11-09 2024-06-11 三菱电机株式会社 控制装置和控制方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013124833A (ja) * 2011-12-15 2013-06-24 Samsung Yokohama Research Institute Co Ltd 空気調和装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2700342A1 (en) 2007-09-19 2009-03-26 United Technologies Corporation System and method for occupancy estimation
JP2011231946A (ja) 2010-04-23 2011-11-17 Panasonic Electric Works Co Ltd 資源管理システム
US8706310B2 (en) * 2010-06-15 2014-04-22 Redwood Systems, Inc. Goal-based control of lighting
CN103168278B (zh) * 2010-08-06 2017-01-18 加利福尼亚大学董事会 用于分析建筑物操作传感器数据的系统和方法
JP2015200639A (ja) * 2014-03-31 2015-11-12 ダイキン工業株式会社 温度分布データ生成システム
US10101730B2 (en) * 2014-05-01 2018-10-16 Johnson Controls Technology Company Incorporating a load change penalty in central plant optimization
US10571414B2 (en) * 2015-01-30 2020-02-25 Schneider Electric USA, Inc. Interior volume thermal modeling and control apparatuses, methods and systems
US10970404B2 (en) * 2016-05-23 2021-04-06 Informatica Llc Method, apparatus, and computer-readable medium for automated construction of data masks
JP2018048750A (ja) * 2016-09-20 2018-03-29 株式会社東芝 空調制御装置、空調制御方法及び空調制御プログラム
US11222422B2 (en) * 2017-03-09 2022-01-11 Northwestern University Hyperspectral imaging sensor
WO2019013014A1 (ja) * 2017-07-12 2019-01-17 三菱電機株式会社 快適度表示装置
US10660241B2 (en) * 2017-09-06 2020-05-19 Vertiv Corporation Cooling unit energy optimization via smart supply air temperature setpoint control
US20190187634A1 (en) * 2017-12-15 2019-06-20 Midea Group Co., Ltd Machine learning control of environmental systems
US20190251456A1 (en) * 2018-02-09 2019-08-15 Dexcom, Inc. System and method for decision support
US20190378020A1 (en) * 2018-05-04 2019-12-12 Johnson Controls Technology Company Building energy system with energy data stimulation for pre-training predictive building models
WO2019222745A1 (en) * 2018-05-18 2019-11-21 Google Llc Sample-efficient reinforcement learning
US11468334B2 (en) * 2018-06-19 2022-10-11 International Business Machines Corporation Closed loop model-based action learning with model-free inverse reinforcement learning

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013124833A (ja) * 2011-12-15 2013-06-24 Samsung Yokohama Research Institute Co Ltd 空気調和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEBER, THEOPHANE ET AL., IMAGINATION-AUGMENTED AGENTS FOR DEEP REINFORCEMENT LEARNING, vol. v2, JPN6019037614, 14 February 2018 (2018-02-14), pages 1 - 12, ISSN: 0004583124 *

Also Published As

Publication number Publication date
CN112400179A (zh) 2021-02-23
EP3832556B1 (en) 2023-12-13
US11808473B2 (en) 2023-11-07
US20210140670A1 (en) 2021-05-13
EP3832556A4 (en) 2022-04-20
EP3832556A1 (en) 2021-06-09
WO2020022123A1 (ja) 2020-01-30
JP7014299B2 (ja) 2022-02-01

Similar Documents

Publication Publication Date Title
JP7014299B2 (ja) 行動最適化装置、方法およびプログラム
US11062580B2 (en) Methods and systems for updating an event timeline with event indicators
US10977918B2 (en) Method and system for generating a smart time-lapse video clip
US20210125475A1 (en) Methods and devices for presenting video information
Chen et al. An agent-based stochastic Occupancy Simulator
KR20190106327A (ko) 사용자 만족도 기반 에너지 대비 쾌적도 효율성 지수 분석 시스템 및 방법
Cook et al. Smart homes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220103