JPWO2020022123A1

JPWO2020022123A1 - 行動最適化装置、方法およびプログラム

Info

Publication number: JPWO2020022123A1
Application number: JP2020532306A
Authority: JP
Inventors: 伸彦松浦; 翠児玉; 崇洋秦; 元紀中村; 社家　一平; 一平社家
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-07-27
Filing date: 2019-07-16
Publication date: 2020-12-17
Anticipated expiration: 2039-07-16
Also published as: CN112400179A; EP3832556B1; US11808473B2; US20210140670A1; EP3832556A4; EP3832556A1; WO2020022123A1; JP7014299B2

Abstract

対象空間内の環境を制御するための行動を最適化する、信頼性の高い技術を提供する。環境を制御するための行動を最適化する行動最適化装置は、環境の状態に関する環境データを取得し、取得された環境データに対して時空間補間を行い、時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、行動後の環境の状態の正解値が出力されるように、環境再現モデルを学習させ、また、環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させ、これら学習済みの環境再現モデルおよび探索モデルを使用して、第１の環境の状態および第１の行動に対応する第２の環境の状態を予測し、第２の環境の状態に対して取るべき第２の行動を探索し、探索の結果を出力する。

Description

この発明の一態様は、対象空間内の環境を制御するための行動を最適化する、行動最適化装置、方法、およびプログラムに関する。

オフィスビルなどの建物や施設の管理において、空調機器をはじめとする機器や設備の動作状態や清掃人員の配置に対して行う操作（以下、まとめて「制御」または「環境を制御するための行動」と言う）を最適化する技術が提案されている。例えば、空調機器等の消費エネルギーを把握・削減することを目的としたビルエネルギーマネジメントシステム（ＢＥＭＳ：Building Energy Management System）（非特許文献１参照）や、トイレの利用者数により清掃スタッフ数の適正化を行う清掃最適化システム（非特許文献２参照）が知られている。これらの技術では、各種データを活用した様々なフィードバック型の最適化システムが利用されている。

また一方、所定の空間における人の流れや数（以下、「人流」と言う）を測定し、その測定結果に基づいた予測値を考慮して機器の運転を制御する、フィードフォワード型の最適化システムが知られている（特許文献１参照）。特許文献１の技術では、対象空間と相関関係を持つことがわかっている隣接空間の人流比をあらかじめ測定しておき、該人流比と隣接空間から得られた人流量との乗算により対象空間の予測人流量を算出し、該予測人流量に応じて消費エネルギー量の上限を設定する。

日本国特開２０１１−２３１９４６号公報

朝妻智裕著，「ビルの快適性と省エネを両立させ安全・安心を支えるスマートＢＥＭＳ」，東芝レビューＶｏｌ．６８，Ｎｏ．１２（２０１３），２６−２９ページ鍋山徹著，「ＩｏＴの新たなビジネスの可能性と地域に関する調査研究」，日経研月報２０１７．５，７４−８３ページ

しかし、非特許文献１および非特許文献２に記載された技術では、フィードバック型システムが用いられているので、例えば施設内の室温が寒くなりすぎたり汚れが目立つようになったりといった非最適状態を検出して制御の最適化が行われるため、最適状態に戻るまでのタイムラグが問題となる。

一方、特許文献１に記載された技術では、非最適状態を引き起こす要因の１つである人流の予測値を考慮するフィードフォワード型の最適化システムが用いられている。しかし特許文献１のシステムは、短期的な人流の増減に単純に追従するものに過ぎないので、継続的に人流が多いのかまたはただちに人流が減少するのかといった中長期的な人流の増減を考慮した制御の最適化をすることができない。また、制御変更による効果を見積もらずに単純に消費エネルギー量の上限を調整しているため、代表点から離れた箇所に人が密集したことで熱溜まりが発生して利用者の快適性が損なわれたり、近隣からの冷暖気の流入出により予測誤差が発生して省エネ性が損なわれる、といった対象空間内に存在する相互作用に追従した制御を考慮することができない。また空調制御以外の最適化問題に利用することも容易でない。

この発明は上記事情に着目してなされたもので、その目的とするところは、予測される効果を考慮して対象空間内の環境を制御するための行動を最適化する、信頼性の高い行動最適化技術を提供することにある。

上記課題を解決するためにこの発明の第１の態様は、対象空間内の環境を制御するための行動を最適化する行動最適化装置にあって、上記対象空間内の環境の状態に関する環境データを取得する環境データ取得部と、上記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行う環境データ補間部と、上記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、上記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させる環境再現モデル学習部と、上記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させる探索モデル学習部と、上記環境再現モデルを使用して、第１の環境の状態および第１の行動に対応する第２の環境の状態を予測する環境再現部と、上記探索モデルを使用して、上記第２の環境の状態に対して取るべき第２の行動を探索する行動探索部と、上記行動探索部による探索の結果を出力する出力部とを具備するようにしたものである。

この発明の第２の態様は、上記第１の態様において、上記行動探索部が、探索された上記第２の行動を上記環境再現部に対して出力し、上記環境再現部が、上記環境再現モデルを使用して、上記第２の環境の状態と上記行動探索部から出力された上記第２の行動とに対応する第３の環境の状態をさらに予測し、上記行動探索部が、上記探索モデルを使用して、上記第３の環境の状態に対して取るべき第３の行動をさらに探索するようにしたものである。

この発明の第３の態様は、上記第１の態様において、上記環境再現部が、あらかじめ設定された報酬関数に基づいて、上記第２の環境の状態に対応する報酬をさらに出力し、上記探索モデル学習部が、上記環境再現部から出力される報酬に基づいて上記探索モデルの学習結果を更新するようにしたものである。

この発明の第４の態様は、上記第１の態様において、上記環境データに基づいて、あらかじめ設定された時系列分析方法を用いて未来予測を行い、環境予測データを生成する、環境予測部をさらに備え、上記行動探索部が、上記探索モデルに対して上記環境予測データを使用して、取るべき行動を探索するようにしたものである。

この発明の第５の態様は、上記第１の態様において、上記環境データに対して乱数に基づくデータ拡張を行う、環境拡張部をさらに備え、上記環境再現モデル学習部が、上記データ拡張を施された環境データを用いて上記環境再現モデルを学習させるようにしたものである。

この発明の第６の態様は、上記第１の態様において、上記環境再現モデル学習部、上記探索モデル学習部、上記環境再現部または上記行動探索部が処理に用いるべき情報を指定する方針データを取得する、方針データ取得部をさらに備えるようにしたものである。

この発明の第７の態様は、上記第１の態様において、上記行動探索部が、上記第２の行動として、複数の制御対象を所定の基準に基づいてあらかじめグループ化して得られる制御対象グループに対するグループ単位の行動、または所定の機能を実現するための１もしくは複数の制御対象に対する一連の行動を探索するようにしたものである。

この発明の第１の態様によれば、時空間補間された対象空間内の環境データに基づいて、環境の状態およびそれに対する行動とその後の環境の状態との対応関係を、それぞれに対応した３種類のデータからなる教師データを用いて環境再現モデルに学習させ、その学習済みの環境再現モデルに基づいて、環境の状態と行動から環境の状態の変化を予測する。また、環境の状態を入力したときに次にとるべき行動が出力されるように探索モデルを学習させ、その学習済みの探索モデルを用いて、上記環境再現モデルによって予測された環境の状態に対してとるべき行動を探索できるようにしている。

このように、取得された環境データに対して時空間補間を行っているので、過去の特定の時点のデータに限定されることなく、任意の期間のデータを用いて環境再現モデルに学習させることができ、そのような環境再現モデルを用いることで、より信頼性の高い予測結果が得られ、その予測結果を用いてより信頼性の高い探索を行うことができる。また、代表点以外の環境データを用いることができるので、熱溜まりなどの局所的な環境条件も考慮に入れて、行動の探索を行うことができる。なお、熱溜まりとは一般に周囲に比べて温度の高い局所的な空間を言う。また、多種多様な情報を含む環境データを用いることにより、例えば空調制御に限定されない、多様な条件に適合する学習または行動探索を行うことができる。また、環境予測と行動探索のために２種類の学習器を用いるので、それぞれ個別に検証や調整を行って、さらに予測の信頼性を高めることもできる。

この発明の第２の態様によれば、上記第１の態様において、環境再現モデルを用いて予測された環境の状態と、その環境の状態に対して探索モデルを用いて探索された行動とが、再び、環境再現モデルに入力され、新たな環境の状態が予測される。そして、その新たな環境の状態が再び行動探索モデルに入力され、さらに新たな行動が探索される。これにより、環境再現モデルを用いた予測結果と探索モデルを用いた探索結果とが連鎖的に機能して、教師データに存在しない環境の状態と行動のペアが選ばれたとしても探索を継続し、複数の時点に対応する環境の状態に対して取るべき行動を、一連の探索結果として得ることができる。

この発明の第３の態様によれば、上記第１の態様において、あらかじめ設定された報酬関数に基づいて、第１の環境の状態およびそれに対する第１の行動から予測される第２の環境の状態に対応する報酬が求められ、求められた報酬に基づいて探索モデルの更新が行われる。これにより、教師データを一意に用意できないような複雑な最適化問題においても探索モデルを学習でき、適切な行動を探索し出力することができる。

この発明の第４の態様によれば、上記第１の態様において、環境データに基づいて時系列分析により予測されたデータを用いて、環境を制御するための行動の探索が行われる。これにより、環境情報に関する予測値を十分に取得できない状況においても、信頼性の高い予測データに基づいて行動の探索を行うことができる。

この発明の第５の態様によれば、上記第１の態様において、取得された環境データに対して乱数に基づくデータ拡張が行われ、データ拡張を施された環境データを用いて、環境再現モデルの学習が行われる。データ拡張により、見かけ上のデータの量を増やすことができるので、環境再現モデルの学習のために十分な量の環境データを収集するのに要する時間を短縮することができる。

この発明の第６の態様によれば、上記第１の態様において、環境再現モデルの学習、探索モデルの学習、またはそれらのモデルを用いた評価の際に必要な種々の情報に関する方針データが取得される。これにより、制御の対象や環境条件等に応じて学習や評価の手法を個々に設定し、よりフレキシブルな処理を行うことができる。

この発明の第７の態様によれば、上記第１の態様において、上記第２の行動として、制御対象グループに対するグループ単位での行動、または所定の機能を実現するための一連の行動が探索される。これにより、制御対象、制御目的、制御環境等に応じた、さらにフレキシブルな処理を実現することができる。

すなわちこの発明の各態様によれば、予測される効果を考慮して対象空間内の環境を制御するための行動を最適化する、信頼性の高い行動最適化技術を提供することができる。

図１は、この発明の一実施形態に係る行動最適化装置を含むシステムの全体構成の第１の例を示す図である。図２は、図１に示した行動最適化装置のハードウェア構成を示すブロック図である。図３は、図１に示した行動最適化装置のソフトウェア構成を示すブロック図である。図４は、図１に示した行動最適化装置による環境データ取得の処理手順と処理内容の一例を示すフローチャートである。図５Ａは、環境データの一例として人流データを示す図である。図５Ｂは、環境データの一例として温度データを示す図である。図５Ｃは、環境データの一例としてＢＥＭＳデータを示す図である。図６は、図１に示した行動最適化装置による環境データの予測の処理手順と処理内容の一例を示すフローチャートである。図７は、図１に示した行動最適化装置による環境データの時空間補間の処理手順と処理内容の一例を示すフローチャートである。図８は、図７に示した時空間補間処理の対象となる環境データの一例を示す図である。図９は、図１に示した行動最適化装置の動作方針を指定するために用いられるＧＵＩ画面の第１の例を示す図である。図１０は、図１に示した行動最適化装置による方針管理の処理手順と処理内容の一例を示すフローチャートである。図１１は、図１に示した行動最適化装置の動作について指定する情報を含む方針データの一例を示す図である。図１２は、図１に示した行動最適化装置による環境再現モデルの学習処理の手順と処理内容の一例を示すフローチャートである。図１３は、図１に示した行動最適化装置によるデータ拡張処理の手順と処理内容の一例を示すフローチャートである。図１４は、図１に示した行動最適化装置による環境再現モデルを用いた評価処理の手順と処理内容の一例を示すフローチャートである。図１５は、図１に示した行動最適化装置の探索動作を指定するために用いられるＧＵＩ画面の一例を示す図である。図１６は、図１に示した行動最適化装置による探索モデルの学習処理の手順と処理内容の一例を示すフローチャートである。図１７は、図１に示した行動最適化装置による探索モデルを用いた評価処理の手順と処理内容の一例を示すフローチャートである。図１８は、図１に示した行動最適化装置の出力部による出力の処理手順と処理内容の一例を示すフローチャートである。図１９は、図１に示した行動最適化装置による探索結果の一例を示す図である。図２０は、この発明の一実施形態に係る行動最適化装置を含むシステムの全体構成の第２の例を示す図である。図２１は、図２０に示した行動最適化装置の動作方針を指定するために用いられるＧＵＩ画面の第２の例を示す図である。

以下、図面を参照してこの発明に係わる実施形態を説明する。
［一実施形態］
（実施例１）
（構成）
（１）システム
図１は、この発明の一実施形態に係る行動最適化装置１を含むシステムの全体構成の第１の例を示す図である。この例では、行動最適化装置１は、対象空間内の環境を制御するための行動として、空調の制御を最適化することが想定されている。このシステムは、行動最適化装置１と、当該行動最適化装置１とネットワークＮＷやケーブル等を介して間接的にまたは直接的に接続された、１以上の外部センサＳｓ１，Ｓｓ２，．．．，Ｓｓｎまたはこれらを統括する統括装置ＳＩ（以降、これらをまとめて「センサシステムＳＳ」と言う）と、空調システムＡＳや清掃システムＣＳなどの施設内外に存在する施設管理システムＭＳとを含む。

ネットワークＮＷは、例えばインターネットに代表されるＩＰ（Internet Protocol）網と、このＩＰ網に対しアクセスするための複数のアクセス網とから構成される。アクセス網としては、光ファイバを使用した有線網はもとより、例えば３Ｇ又は４Ｇ等の規格の下で動作する携帯電話網や、無線ＬＡＮ（Local Area Network）等が用いられる。

外部センサＳｓ１，Ｓｓ２，．．．，Ｓｓｎは、例えば、人流センサ、温度センサ、湿度センサ、赤外線センサ等、対象空間内の環境に関する種々の情報を取得するセンサであり、人流、温度、湿度、物体の有無等、種々のデータを出力する。統括装置ＳＩは、例えば、外部センサＳｓ１，Ｓｓ２，．．．，Ｓｓｎの動作を統括的に制御するとともに、外部センサＳｓ１，Ｓｓ２，．．．，Ｓｓｎによって出力されたデータを統括的に収集し送信することができる。

一実施形態に係る行動最適化装置１は、ネットワークＮＷや信号ケーブル等を介して、センサシステムＳＳや施設管理システムＭＳから種々の情報を環境データとして受信し、また、施設管理システムＭＳに対して制御信号を送信することができる。

（２）行動最適化装置
（２−１）ハードウェア構成
図２は、図１に示した実施形態に係る行動最適化装置１のハードウェア構成の一例を示すブロック図である。行動最適化装置１は、例えばパーソナルコンピュータまたはサーバ装置からなり、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等のハードウェアプロセッサ２０Ａを有し、このハードウェアプロセッサ２０Ａに対し、入出力インタフェースユニット１０と、プログラムメモリ２０Ｂと、データメモリ３０とを、バス４０を介して接続したものとなっている。

入出力インタフェースユニット１０は、例えば有線または無線インタフェースを有しており、上記センサシステムＳＳまたは施設管理システムＭＳから送信された環境データを受信するとともに、行動最適化装置１から出力される制御信号を施設管理システムＭＳへ送信する機能を有する。入出力インタフェースユニット１０は、また、図示しない表示デバイスや入力デバイスとの間で情報の送受信を可能にする。有線インタフェースとしては、例えば有線ＬＡＮが使用され、また無線インタフェースとしては、例えば無線ＬＡＮやBluetooth（登録商標）などの小電力無線データ通信規格を採用したインタフェースが使用される。

入出力インタフェースユニット１０は、また、ＧＵＩ（Graphical User Interface）を含み、例えば、図示しない入力デバイスからユーザやオペレータが入力した方針指示または探索指示を取り込むことができる。

プログラムメモリ２０Ｂは、記憶媒体として、例えば、ＨＤＤ（Hard Disk Drive）またはＳＳＤ（Solid State Drive）等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＯＭ等の不揮発性メモリとを組み合わせて使用したもので、実施形態に係る各種制御処理を実行するために必要なプログラムが格納されている。

データメモリ３０は、記憶媒体として、例えば、ＨＤＤまたはＳＳＤ等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリとを組み合わせて使用したもので、各種処理を行う過程で取得および作成された各種データを記憶するために用いられる。

（２−２）ソフトウェア構成
図３は、図１に示した実施形態に係る行動最適化装置１のソフトウェア構成を、図２に示したハードウェア構成と関連付けて示したブロック図である。行動最適化装置１は、入出力インタフェースユニット１０と、制御処理ユニット２０と、データメモリ３０とを備えている。

データメモリ３０の記憶領域は、環境データ記憶部３１と、方針データ記憶部３２と、モデルデータ記憶部３３と、探索結果記憶部３４とを備えている。

環境データ記憶部３１は、センサシステムＳＳおよび施設管理システムＭＳから取得した環境データを記憶する。環境データは、対象とする空間内の環境に関するデータであり、環境の状態を表すデータに加えて、環境に対する制御を表すデータを含み得る。例えば、環境データには、人流、温度、湿度、汚れやごみの存在、空気中の粒子の飛散量など、種々のセンサによってセンシングされた情報に加え、空調機器の設定温度や運転モード、清掃システムＣＳによって管理される清掃スケジュールなど、多種多様な情報が含まれてもよい。

方針データ記憶部３２は、ＧＵＩを介してユーザ等が入力した、行動最適化装置１における種々の処理に関する指示情報を含む方針データを記憶する。方針データは、例えば、学習に用いるデータや学習方法を指定する情報を含む。

モデルデータ記憶部３３は、行動最適化装置１が種々の処理に用いるモデルデータを記憶する。各々のモデルデータは、バイナリ形式等の適切に実行可能な形式で保存がされており、モデル名称を表すメタデータも含み得る。

探索結果記憶部３４は、行動最適化装置１の行動探索処理によって得られる探索結果を記憶する。

ただし、上記記憶部３１〜３４は、必須の構成ではなく、行動最適化装置１が直接センサシステムＳＳや施設管理システムＭＳから必要なデータを随時取得するようにしてもよい。あるいは、上記記憶部３１〜３４は、行動最適化装置１に内蔵されたものでなくてもよく、例えば、クラウドに配置されたデータベースサーバ等の外部の記憶装置に設けられたものであってもよい。この場合、行動最適化装置１は、ネットワークＮＷを介して上記クラウドのデータベースサーバにアクセスすることにより、必要なデータを取得する。

制御処理ユニット２０は、上記ハードウェアプロセッサ２０Ａと、上記プログラムメモリ２０Ｂとから構成され、ソフトウェアによる処理機能部として、ＧＵＩ管理部２１と、方針管理部２２と、環境データ取得部２３と、環境データ補間部２４と、環境予測部２５と、環境拡張部２６と、環境再現部２７と、行動探索部２８と、送信制御部２９とを備えている。これらの処理機能は、いずれも上記プログラムメモリ２０Ｂに格納されたプログラムを上記ハードウェアプロセッサ２０Ａに実行させることにより実現される。制御処理ユニット２０は、また、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（field-programmable gate array）などの集積回路を含む、他の多様な形式で実現されてもよい。

ＧＵＩ管理部２１は、ユーザやオペレータ等が行動最適化装置１の処理に関する指示を入力するためのＧＵＩを提供する。例えば、ＧＵＩ管理部２１は、図示しない表示装置にＧＵＩを表示させ、ＧＵＩを介して入力されたユーザの指示を受け取る。この実施形態では、ＧＵＩ管理部２１は、ＧＵＩを介して、学習に用いるデータや学習方法を指定する情報を受け取り、それらを方針管理部２２または行動探索部２８に出力することができる。

方針管理部２２は、方針データ取得部として機能し、ＧＵＩ管理部２１から受け取った情報に基づいて方針データを生成し、生成した方針データを方針データ記憶部３２に格納する。方針管理部２２は、方針データを管理することにより、ＧＵＩを介して入力された種々の指示とモデルとの関係を整理する働きをする。

環境データ取得部２３は、センサシステムＳＳまたは施設管理システムＭＳによって送信される、制御対象である空間の環境に関する情報を含む環境データを取得し、取得した環境データを環境データ記憶部３１に格納する処理を行う。環境データは、例えば、人流センサによって取得された人流データや、温度センサによって取得された温度データなどを含む。

環境データ補間部２４は、取得された環境データに対してあらかじめ設定された方法で時空間補間をする処理を行う。環境データ補間部２４は、例えば、１時間ごとに過去１時間分の環境データを読み出し、読み出した環境データに対して時間補間および空間補間を行う。

ここでは、時間補間とは、取得されたデータのポイントに対して時間的に中間のポイントのデータを求める（推測する）処理を言い、例えば、取得された環境データが１０分間隔のデータである場合に、１分間隔のデータを求める処理を言う。同様に、空間補間とは、取得されたデータのポイントに対して空間的に中間のポイントのデータを求める（推測する）処理を言い、例えば、センサが設置された位置で取得された実測値から、センサが設置されていない位置に対応する値を求める処理を言う。以下、時間補間および空間補間をまとめて「時空間補間」と言う。

環境予測部２５は、取得された環境データに基づいて、あらかじめ設定された時系列分析方法を用いて未来予測を行い、環境予測データを生成する処理を行う。

環境拡張部２６は、取得された環境データに対して乱数に基づくデータ拡張する処理を行う。ここでは、データ拡張とは、入力側に対して微小なノイズやマスクをかけたり、入力側と出力側の両方に共通のアフィン変換をかけたりといった処理を意味し、このような処理を乱数に応じて実施することで、予測処理のロバスト性を向上させることを目的とする。

環境再現部２７は、学習フェーズと評価フェーズという２つの動作フェーズを有する。環境再現部２７は、学習フェーズにおいては、環境再現モデル学習部として機能し、環境の状態と当該環境を制御するための行動を入力したときに、その行動の後の環境の状態の正解値が出力されるように環境再現モデルを学習させる処理を行う（以下、環境再現部２７で用いるモデルを「環境再現モデル」と言う）。一方、評価フェーズにおいては、環境再現部２７は、学習済みの環境再現モデルを使用して、環境の状態とそれに対する行動とに基づいて、その後の環境の状態を予測する処理を行う。

行動探索部２８もまた、学習フェーズと評価フェーズという２つの動作フェーズを有する。行動探索部２８は、学習フェーズにおいては、探索モデル学習部として機能し、環境の状態を入力したときに次にとるべき行動が出力されるように探索モデルを学習させる処理を行う（以下、行動探索部２８で用いるモデルデータを「探索モデル」と言う）。一方、評価フェーズにおいては、行動探索部２８は、学習済みの探索モデルを使用して、環境の状態に基づいて、それに対して取るべきより適切な行動を探索する処理（探索処理）を行う。例えば、行動探索部２８は、指定された時間期間について、各時刻ｔにおける状態ｓに対して最適な次状態ｓ’へ遷移する行動ａの予測（評価）を行い、最適化された行動のスケジュールを出力する処理を行う。

送信制御部２９は、出力部として機能し、行動探索部２８が評価フェーズで出力する探索結果を施設管理システムＭＳ等に対して送信（出力）する処理を行う。

（動作）
次に、以上のように構成された行動最適化装置１の各部による情報処理動作を説明する。

（１）環境データの取得
図４は、行動最適化装置１による環境データ取得の処理手順と処理内容の一例を示すフローチャートである。

行動最適化装置１は、まずステップＳ３０１において、環境データ取得部２３の制御の下、センサシステムＳＳまたは施設管理システムＭＳから送信された環境データを取得する。一実施形態では、環境データは、少なくとも人流データを含み、その他にセンサシステムＳＳや施設管理システムＭＳから取得した種々のデータを含み得る。

センサシステムＳＳまたは施設管理システムＭＳによる環境データの送信のタイミングは、多種多様なものでよい。例えば、センサシステムＳＳまたは施設管理システムＭＳは、所定のサンプリング周期でデータを取得し、蓄積して、この蓄積されたデータを一定時間（例えば１時間）ごとに行動最適化装置１へ直接送信するようにしてもよい。または、行動最適化装置１が、一定時間ごとにまたはユーザからの指示の入力に応じてセンサシステムＳＳまたは施設管理システムＭＳにデータ送信要求を送信し、このデータ送信要求に応答して、センサシステムＳＳまたは施設管理システムＭＳが最新の環境データまたは蓄積されたデータを行動最適化装置１に対して送信するようにしてもよい。あるいは、センサシステムＳＳまたは施設管理システムＭＳから送信された環境データが、例えばネットワークＮＷを介して図示しないデータベースサーバに蓄積され、行動最適化装置１が、一定時間ごとに、またはユーザからの指示の入力に応じて、データベースサーバから必要なデータを読み出すようにしてもよい。

行動最適化装置１は、ステップＳ３０２において、取得した環境データを環境データ記憶部３１に保存する。

図５Ａ〜５Ｃは、環境データの例を示す図である。

図５Ａは、環境データの一例として人流データを示す。一実施形態では、人流データは、センサが人流を測定した時刻を表す「時刻」と、センサが設置された場所を表す「識別子」と、センサが測定した「人数」と、のフィールドからなる。人流を測定するセンサとしては、例えば、レーザセンサ、赤外線センサ、カメラなど、多種多様なセンサを用いることができる。人流データの各フィールド項は、図５Ａに示したものに限定されるものではなく、例えば、人数として単位時間当たりの任意測定区画（例えば１秒間隔の１ｍ平方のメッシュ）に存在した人の数としてもよく、多種多様なフィールド項をとり得る。

図５Ｂは、環境データの一例として温度データを示す。一実施形態では、温度データは、センサが温度を測定した時刻を表す「時刻」と、センサが設置された場所を表す「識別子」と、センサが測定した「温度」と、のフィールドからなる。温度を測定するセンサとして、例えば、熱電対、測温抵抗体、サーミスタなど、多種多様なセンサを用いることができる。温度データの各フィールド項は、図５Ｂに示したものに限定されるものではなく、多種多様なフィールド項をとり得、例えば、温度精度を表すフィールドを新たに設けてもよい。

図５Ｃは、環境データの一例としてＢＥＭＳデータを示す。一実施形態では、ＢＥＭＳデータは、主に施設管理システムＭＳから取得できる空調制御に関するデータを表しており、管理システムに該レコードが書き込まれた時刻を表す「時刻」と、複数ある空調機器のうちのいずれに対応するかを表す「識別子」と、空調をＯＮにするかＯＦＦにするかを表す「空調」と、空調から吹き出す空気の温度を表す「設定温度」と、のフィールドからなる。やはり、各フィールド項はこれらに限定されるものではなく、例えば空調から供給される送風量を表す給気フィールドを新たに設けてもよい。

なお、環境データは、図示したフィールド名と値とは別に、図示していない人流や温度といったデータ名称を表すメタデータも含み得る。またＢＥＭＳデータのように複数のフィールドを持つデータについて、例えば、測定時刻、識別子、空調からなる空調データと、測定時刻、識別子、設定温度からなる空調設定温度データのように、分割してより細かい粒度でデータ管理を行うようにしてもよい。

（２）環境データの予測
図６は、行動最適化装置１による、あらかじめ設定された時系列分析方法を用いて環境データの予測を行う処理手順と処理内容の一例を示すフローチャートである。一実施形態では、環境予測部２５が、時系列分析手法の１つである自己回帰移動平均（ＡＲＭＡ：Autoregressive Moving Average）モデル（例えば、沖本竜義著，「経済・ファイナンスデータの計量時系列分析」，株式会社朝倉書店，２０１７年９月１０日第１２刷発行，参照）を用いて、環境データの今後１日間の予測を行う。環境予測部２５は、所定の時間間隔ごとに自動的に起動するようにしてもよいし、ユーザまたはオペレータからの指示の入力に応じて起動するようにしてもよい。一実施形態では、環境予測部２５は、１日ごとに自動的に起動して以下のような処理を行う。

行動最適化装置１は、まずステップＳ５０１において、環境予測部２５の制御の下、前回起動時から環境データ記憶部３１に保存された環境データについて新規データが存在するか否かを判定する。ステップＳ５０１において、新規データが存在しないと判定された場合、処理を終了する。一方、ステップＳ５０１において、新規データが存在すると判定された場合、ステップＳ５０２に移行する。

ステップＳ５０２において、行動最適化装置１は、環境予測部２５の制御の下、新規データと処理に必要なデータとを読み込む。一実施形態では、環境予測部２５は、新規データと、ＡＲＭＡモデルの次数パラメータよりも新規データが少なかった場合は不足分のデータを読み込む。

ステップＳ５０３において、行動最適化装置１は、環境予測部２５の制御の下、あらかじめ設定された予測式に応じて未来予測を行う。一実施形態では、環境予測部２５は、あらかじめ設定された予測式としてＡＲＭＡモデルを用い、ＡＲＭＡモデルの重みパラメータの推定を行い、同定した該モデルを用いることにより、今後１日間の予測を行う。ＡＲＭＡモデルでは、予測値をｖ_t、過去の実測値を（ｖ_t-1, ｖ_t-2, ..., ｖ₀）を、また誤差を（ε_t-1, ε_t-2, ..., ε₀）としたとき、

と、ｐ個の過去値の加重和で表現される自己回帰モデル（ＡＲ：Autoregressive）とｑ個の誤差の加重和で表現される移動平均モデル（ＭＡ：Moving Average）を合わせたモデルで予測を行う。なお、φ_i，θ_iは重みを表すパラメータであり、ｐ，ｑは次数を表すパラメータである。

このうちｐ，ｑは、すべての実測値（ｖ_t-1, ..., ｖ₀）を用いて、偏自己相関のグラフを描画して表れる周期から適切なものを選択したり、赤池情報量基準（ＡＩＣ：Akaike's Information Criterion）やベイズ情報量基準（ＢＩＣ：Baysian Information Criterion）を最小化する最尤推定により自動算出したりすることによって、あらかじめ推定しておいたものを利用する。また、あらかじめ最適な値が分かっている場合は設定ファイルに書き込み、該設定ファイル内の値を参照してもよい。またφ_i，θ_iは、予測時に与えられる（ｖ_t-1, ..., ｖ_t-p）と（ε_t-1, ..., ε_t-q）を用いて、誤差を最小化する最尤推定によって自動算出を行う。

ステップＳ５０４において、行動最適化装置１は、環境予測部２５の制御の下、該予測結果を環境データとして環境データ記憶部３１に保存する。この際、予測値であることを表すフラグも一緒に保存し、以降の処理においてフラグ値を参照することで予測値と実測値のどちらを使うかを切り替えてもよい。ここでは、「実測値」は、センサシステムＳＳや施設管理システムＭＳが観測した実測値（必ず過去時刻）であるのに対し、「予測値」は、環境予測部２５または図示しない外部装置が実測値をもとに予測した値（必ず未来時刻）を言う。この実施形態では、ある時刻において、予測値のみの場合は予測値を、予測値と実測値の両方がある場合は実測値をそれぞれ用いることとする。

なお、予測処理は、上記の例に限定されるものではなく、例えば、ＡＲＭＡモデル以外の予測手法を用いてもよい。例えば、予測手法については、季節自己回帰和分移動平均モデル（ＳＡＲＩＭＡ：Seasonal Autoregressive Integrated Moving Average）といった他の時系列分析手法を用いたり、相関を持つ他種データを用いた重回帰分析といった回帰分析手法を用いたり、長短期記憶ユニット（ＬＳＴＭ：Long-Short Term Memory）といった深層学習手法を用いたりすることも可能である。また、設定ファイルにより適用する環境データ名称と手法をそれぞれ個別に指定してもよい。

このように環境予測部２５を設けることにより、外部装置から予測値（例えば、予測人流や予測天気）を取得できない環境においても、以上のようにして取得された予測データを用いて各処理を実施することができる。

（３）環境データの時空間補間
図７は、行動最適化装置１による、取得された環境データに対して時空間補間を行う処理手順と処理内容の一例を示すフローチャートである。一実施形態では、環境データ補間部２４がこれらの処理を行う。

図８は、補間対象データの一例を示す。一実施形態では、環境データ補間部２４は、図８に示された、１０分間隔かつセンサ設置場所に対応した特定位置（以降、「観測点」と言う）のデータ（以降、「ポイントデータ」と言う）から、１分間隔の対象領域内全点のデータ（以降、「エリアデータ」と言う）への補間を行う。なお、エリアデータは２次元に高さを加えた３次元の点について補間したデータであってもよい。また、環境データ補間部２４は、所定の時間間隔ごとに自動的に起動するようにしてもよいし、ユーザまたはオペレータからの指示の入力に応じて起動するようにしてもよい。一実施形態では、環境データ補間部２４は、１時間ごとに自動的に起動して以下のような処理を行う。

行動最適化装置１は、まずステップＳ６０１において、環境データ補間部２４の制御の下、前回起動時から環境データ記憶部３１に保存された環境データについて新規データが存在するか否かを判定する。図８の例では、環境データ補間部２４は、前回起動時刻ｔ₀以降の時刻（ｔ₁₀, ｔ₂₀, ..., ｔ₆₀）について、観測点（ｘ₁, ..., ｘ_n）から得られた値（ｖ_10,1, ...,ｖ_60,n）が、環境データ記憶部３１内に環境データとして存在しているかどうかを判定する。ステップＳ６０１において、新規データが存在しないと判定された場合、環境データ補間部２４は、処理を終了する。一方、ステップＳ６０１において、新規データが存在すると判定された場合、ステップＳ６０２に移行する。

ステップＳ６０２において、行動最適化装置１は、環境データ補間部２４の制御の下、新規データと処理に必要なデータとを読み込む。

次いで、ステップＳ６０３において、行動最適化装置１は、環境データ補間部２４の制御の下、読み込んだデータに対し、あらかじめ設定された補間式に応じて時空間補間を行う。

より詳細には、環境データ補間部２４は、ステップＳ６０２で時刻ｔ₀の値も追加で読み込み、ステップＳ６０３において、観測点ｘ_iの１０分間隔の値集合

に対して、はじめに、線形補間法を適用し、１分間隔の値集合

を算出する。

例えば、ｔ_j ＜ｔ_k ≦ ｔ_j+10 を満たす時刻ｔ_kの値ｖ_k,iの補間式は以下のようになる。

以上をすべての時刻間｛(t₀, t₁₀), (t₁₀, t₂₀), ..., (t₅₀, t₆₀)｝に対して計算し、さらに全観測点に適用することで時間補間を行う。

次に、ある時刻ｔの観測点ｎ個の値集合

に逆距離荷重法（ＩＤＷ：Inverse Distance Weighting）を適用し（例えば、Hans Wackernagel原著，地球統計学研究委員会訳編，青木謙治監訳，「地球統計学」，森北出版株式会社，２０１１年８月１８日第１版第３刷発行，参照）、未観測点ｍ個を含む値集合

を算出する。例えば、未観測点をｕとしたときの補間式は以下となり、

これを未観測点ｍ個すべてに対して計算する。

上記式は、距離の逆数を重みとする加重平均で未観測点の値を求めるものであり、ｐは近傍点の影響度を調節するパラメータである。パラメータｐは、補間時に与えられるｘ_i，ｖ_t,iをもとに、誤差を最小化する最尤推定によって自動算出を行う。また、あらかじめ最適な値が分かっている場合は設定ファイルに書き込み、該設定ファイル内の値を参照してもよい。

ステップＳ６０４において、行動最適化装置１は、環境データ補間部２４の制御の下、以上の処理によって得られた時空間補間された結果を環境データのエリアデータとして環境データ記憶部３１に保存する。

なお、時空間補間の手法については、時間補間にスプライン補間を用いたり、空間補間にクリギング（kriging）を用いたり、といった別の手法を指定してもよく、設定ファイル等により適用する環境データ名称と手法を個別に指定してもよい。また、時間補間における補間間隔や、空間補間における補間対象となる未観測点の数と位置や、時間補間と空間補間の処理順番などは、設定ファイル等を通して任意に設定してもよい。

なお、環境予測部２５および環境データ補間部２４について、一定時間ごとではなく環境データ記憶部３１への保存が検出されるたびに各処理を行うようにしてもよい。また、環境予測部２５と環境データ補間部２４の起動順序は任意であり、環境予測部２５の結果に対して環境データ補間部２４が補間したり、環境データ補間部２４の結果を用いて環境予測部が予測したりするように構成してもよい。

（４）方針情報の取得
次に、ＧＵＩを介して入力される方針情報の取得について説明する。
図９は、行動最適化装置１のＧＵＩ管理部２１によって提供される、種々の処理に関する指示（方針）を入力するためのＧＵＩの一例として、図示しない表示部等に表示される方針入力画面２１０を示す。ＧＵＩ管理部２１は、このような方針入力画面２１０を介して、キーボード、マウス、タッチパネル等の入力デバイス（図示せず）を用いてユーザまたはオペレータが入力した方針指示を取り込むことができる。方針入力画面２１０は、状態、行動、報酬関数、再現手法、探索手法を入力するテキストボックス２１１〜２１５と、入力を終了する送信ボタン２１６とを有するが、これに限定されるものではない。

行動欄２１２は、探索処理における制御対象を入力する欄である。本実施形態では、「空調」はＯＮ／ＯＦＦという空調の運転状況を表し、いくつかある中の１つの制御を最適化することを想定しているが、これに限定されるものではない。例えば、行動欄２１２において、設定温度といった別の行動を設定したり、同対象空間内に設置された複数の空調それぞれの運転状況を設定するように構成してもよい。

また、行動欄２１２において、制御対象をいくつかの単位でグループ化したり、定められた手続きを予め登録したりといった仮想的な行動を設定するように構成してもよい。これにより、例えば、複数の空調を利用者が多い重点区画とそうではない通常区画のどちらに属するかに応じてグループ化し、「重点空調グループ」と「通常空調グループ」といったグループ単位での仮想行動を設定してもよい。なおグループ化の方法はこれに限らず、例えば外気や日射の影響を受け易い区画、厨房等の熱源を備える区画、イベントが開催される区画といった様々な単位で仮想行動を設定することもできる。

更に、所定の機能を実現するための一連の操作を含む仮想行動を設定してもよい。例えば、空調停止する際は徐々に風量を絞っていくといった製造時に定められた手続きがある場合、その手続きに則った操作を行う「空調停止」という仮想行動を設定することができる。このような仮想行動の他の例として、空調運転前に熱源稼動して蓄熱層の水量や水温を調整するといった依存関係のある複数機器にまたがった操作を行う「起動準備」、供給温度を下げて供給風量を弱めることで除湿効果を高める操作を行う「除湿モード」、サーキュレータやエアカーテンといったアクチュエータを利用したり換気量や供給風量の調整により室内圧力バランスを変更したりすることで気流を生み出す操作を行う「気流制御」などの手続きを設定することも可能である。ただし、これらの具体例に限定されるものではなく、使用目的や使用環境等に応じて多種多様な手続きを仮想行動として採用することができる。また仮想行動は、単一の制御対象に対する操作に係るものであってもよいし、同じ種類の複数の制御対象に対する操作に係るものであってもよいし、異なる種類の複数の制御対象に対する操作に係るものであってもよい。

状態欄２１１は、行動を変化させた際に影響を受ける環境データの名称を入力する欄である。図では、人流、温度、湿度、外気を利用するように例示されているが、入力データはこれらに限定されず、例えば日射量を含めてもよい。

再現手法欄２１３は、環境再現部２７が行動と状態の関係を予測するための手法を入力する欄である。図では、短期間の天気予報等に用いられている深層学習の畳み込みＬＳＴＭ（Convolutional LSTM）（例えば、Xingjian Shi, et al., Convolutional LSTM network: A Machine Learning Approach for Precipitation Nowcasting. NIPS, 2015参照）という手法を用いることを例示している。また、当該手法を用いて、入力として行動ａと状態ｓを、出力として１時間後の次状態ｓ’を出力するモデルが既にモデルデータとして定義・保存されているものとする。ただし、これに限定されず、任意時間経過後（例えば１０分後や１日後など）の次状態ｓ’を出力したり、重回帰分析といった別手法を用いたり、数値流体力学シミュレータなどの物理シミュレータと連携したり、といった方法を取ってもよい。

探索手法欄２１４は、行動探索部２８が探索を行うための手法を入力する欄である。図では、深層強化学習におけるDeep Q-Networkという手法を用いることを例示しているが、これに限定されず、動的計画法やＴＤ学習といった別の強化学習手法を用いてもよい（例えば、Csaba Szepesvari著，小山田創哲訳者代表・編集，前田新一・小山雅典監訳，「速習教科学習−−基礎理論とアルゴリズム」，共立出版株式会社，２０１７年９月２５日初版１刷発行，参照）。

なお、再現手法欄２１３および探索手法欄２１４は、あらかじめ対応したモデルないしシミュレータがモデルデータとして登録されており、該モデルの名称を入力することを例示しているが、これに限定されず、例えば直接プログラムを記述してもよい。

報酬関数欄２１５は、行動探索部２８が探索手法欄２１４の手法にしたがって決定した行動についての評価式を入力する欄である。図では、学習の１サイクルが終了した場合は１サイクルの総消費エネルギー減少量を、それ以外の場合は、その時刻のエネルギー削減量（reward1）と、外気と温度の差のマイナス値（reward2）の和を、それぞれ報酬ｒとして返すように指定している。後者の場合、それぞれある時刻tにおいて、reward1は消費エネルギー削減が高いほど高い値を示し、省エネ性の観点から電力のピーク値を下げ、reward2は外気と室温の差が低いほど高い値を示し、快適性の観点からヒートショックないしコールドショックを防ぐ効果がそれぞれ期待される。なおこれらに限らず、報酬関数の評価式において、例えば温度と湿度の値から快適指数を算出したり人流による発熱量を考慮したりしてもよい。

さらに、報酬関数の評価式において、一般的に知られる省エネルギーに繋がる操作を高く評価するように考慮してもよい。そのような省エネルギーに繋がる操作の例としては、空調の間欠運転や未使用区画の間引き運転によるピークカット・シフト、業務定時よりも少し前に熱源を停止して保有冷温水のみで空調運転する熱源事前停止、室内よりも室外の方が快適な温度であるときの自然換気活用、冷温水の出入り口温度差を小さくしつつ十分な空調効果が得られるように設定温度を調整する空調機能の余剰削減、逆に冷温水の出入り口温度差を大きくすることで空調が利用する水や空気の量を削減する大温度差化、室内外の温度差による圧力差が大きいときの開口部付近のエアカーテン起動による外気流入防止などが挙げられる。ただし、これらに限定されず、使用目的や使用環境等に応じた多様な操作を考慮することが可能である。またさらに、これらを組み合わせて、重要度に応じた重み付け和の形で指定するようにしてもよい。

なお報酬関数欄２１５はプログラムを直接記述しているが、これに限定されず、あらかじめ評価式をモデルデータとして登録しておき、その名称を記述してもよい。

図９において、送信ボタン２１６が押されると、入力が完了したものとして、ＧＵＩ管理部２１は上記の内容を方針管理部２２へ出力する。

（５）方針データの生成
図１０は、行動最適化装置１による方針データを生成する処理手順と処理内容の一例を示すフローチャートである。一実施形態では、方針管理部２２が、ＧＵＩ管理部２１によって出力された方針情報を受け取り、方針情報に基づいて方針データを生成する。

ステップＳ９０１において、行動最適化装置１は、方針管理部２２による制御の下、ＧＵＩ管理部２１から出力された方針情報を引数として受け取り、引数の中から行動、状態、報酬関数、再現手法、探索手法フィールドを取り出す。

ステップＳ９０２において、行動最適化装置１は、方針管理部２２による制御の下、引数から取り出した情報をまとめて方針データとして、方針データ記憶部３２へ保存する。

ステップＳ９０３において、行動最適化装置１は、方針管理部２２による制御の下、環境再現部２７に対して学習指示を出力して処理を終了する。学習指示は、方針データを含むものであってもよく、方針データが新たに方針データ記憶部３２へ保存されたことを示す通知を含むものであってもよい。

図１１は、方針管理部２２が生成する方針データの一例を示す図である。一実施形態では、方針データは、各方針を一意に識別する「識別子」と、対象空間の制御を表す「行動」と、行動を変化させた際に影響を受ける環境データの名称を表す「状態」と、行動探索部２８が学習フェーズで用いる評価式を表す「報酬関数」と、環境再現部２７が用いるモデルを表す「再現手法」と、行動探索部２８が用いるモデルを表す「探索手法」と、のフィールドからなる。なお、報酬関数、再現手法、探索手法については、プログラムを実行可能な状態に変換したもの（以降、「バイナリ」と言う）を記述したり、モデルデータの名称を記述したりしてもよい。またバイナリをモデルデータとしてデータメモリ３０に保存し、その名称ないし識別子を用いてもよい。

以降、方針データの各記述内容に対し、時刻ｔが与えられたときの、行動フィールドに対応する環境データの値を行動ａ、状態フィールドに対応する環境データの値を状態ｓ、状態ｓにおいていくつか想定される複数の行動ａの中から１つを選び、それを実施して時刻を１つ進めたときの状態を次状態ｓ’と呼び、更に、報酬関数フィールドの内容を報酬関数Ｒ、報酬関数Ｒに時刻ｔの行動ａ、状態ｓ、次状態ｓ’を入力して得られる値を報酬ｒと呼ぶ。

例えば行動欄に空調と記述されていた場合、環境データとして保存されている空調データの空調フィールドを抽出し、各時刻ｔにおける行動ａとして利用する。なお、例えば "(ＢＥＭＳデータ，空調)" のような形でデータ名称とフィールド名を個別に設定してもよい。また空調が複数存在する場合、各時刻の行動が空調フィールドだけでは一意に求めることができないため、自動的に識別子フィールドも対象として含め、識別子フィールドと空調フィールドのペアを行動ａとして読み込みを行う。なお、例えば "(ＢＥＭＳデータ、[空調，識別子])" のようにフィールド名を明示してもよい。

再現手法、探索手法および報酬関数について、バイナリが記述されていた場合はそれを評価してモデルデータとしてデータメモリ３０へ保存し、その識別子ないし名称で上書きを行ってもよい。なお、方針管理部２２は、ＧＵＩ管理部２１からの情報を起動トリガとすることに限らず、例えば施設管理システムＭＳから必要なパラメータを含む要求を受け付ける機能部を新たに設け、その要求をトリガとして上記方針データの生成処理を行ってもよい。

（６）環境再現モデルの学習
図１２は、行動最適化装置１による、対象空間内の環境を制御するための行動を変化させた際に環境がどのように変化するかについて過去データから学習する処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置１は、環境再現部２７の制御の下、方針管理部２２からの学習指示を受けて環境再現モデルの学習を開始する（学習フェーズ）。学習フェーズにおいて、環境再現部２７は、環境再現モデル学習部として機能し、方針管理部２２または方針データ記憶部３２から方針情報を引数として取得し、全期間のデータを用いて、時刻ｔの状態ｓにおいて行動ａを実施したときの次状態ｓ’の予測を行う環境再現モデルの学習を行う。施設レイアウト変更が行われたら、そのたびに学習を行うようにしてもよい。

まずステップＳ１１０１において、行動最適化装置１は、環境再現部２７の制御の下、方針管理部２２から出力された引数の中から方針データを取り出す。

ステップＳ１１０２において、行動最適化装置１は、環境再現部２７の制御の下、再現手法フィールド記載内容に対応する環境再現モデルを読み込む。

ステップＳ１１０３において、行動最適化装置１は、環境再現部２７の制御の下、全期間の中からいずれかの時刻をランダムに選び、これを時刻ｔとする。

ステップＳ１１０４において、行動最適化装置１は、環境再現部２７の制御の下、時刻ｔのときの行動ａ、状態ｓ、次状態ｓ’の読込要求を環境拡張部２６に送り、該データを得る。ただし、このステップは任意であり、環境再現部２７がデータメモリ３０から直接、時刻ｔのときの行動ａ、状態ｓ、次状態ｓ’を読み込むように構成してもよい。環境拡張部２６の処理については後述する。

ステップＳ１１０５において、行動最適化装置１は、環境再現部２７の制御の下、読み込んだ環境再現モデルに状態ｓと行動ａを入力し、出力された予測値である状態ｆｓと正解値となる次状態ｓ’の差分を算出し、誤差逆伝搬法といった公知技術（例えば、Ｃ．Ｍ．ビショップ著，元田浩他監訳，「パターン認識と機械学習上」，丸善出版株式会社，平成２８年７月３０日第７刷発行，参照）を用いて環境再現モデルの各パラメータを更新する。

ステップＳ１１０６において、行動最適化装置１は、環境再現部２７の制御の下、上記パラメータ更新の差分があらかじめ定められた閾値以下であるか否かの判定を行う。閾値以下でないと判定された場合、環境再現部２７は、ステップＳ１１０３に戻り、ステップＳ１１０３〜Ｓ１１０５の処理を繰り返す。ステップＳ１１０６において、パラメータ更新の差分が閾値以下になったと判定されたら、ステップＳ１１０７に移行する。

ステップＳ１１０７において、行動最適化装置１は、環境再現部２７の制御の下、パラメータ更新をした環境再現モデルをモデルデータとしてモデルデータ記憶部３３に保存し、処理を終了する。

なお、ＧＵＩ管理部２１によって提供される方針入力画面２１０に新たに開始時刻欄と終了時刻欄を設け、ユーザによる該入力を受け付けて方針管理部２２に出力し、更に方針管理部が該入力値を環境再現部２７にわたすことにより、指定期間のデータを用いた学習を行うようにしてもよい。

環境データ補間部２４により補間されたエリアデータを用いた上記学習により、対象空間内に存在する相互作用を考慮した制御変更による影響を見積もることができるようになる。

（７）データの拡張処理
上記のように、環境再現部２７は、学習処理において、拡張処理を施されたデータを用いることができる。

図１３は、行動最適化装置１によるデータ拡張の処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置１の環境拡張部２６によってデータ拡張処理が行われる。この処理は、環境再現部２７による学習フェーズで用いられることのできる任意の処理である。

ステップＳ１２０１において、行動最適化装置１は、環境拡張部２６の制御の下、引数から時刻ｔを取り出す。

ステップＳ１２０２において、行動最適化装置１は、環境拡張部２６の制御の下、指定された時刻ｔの行動ａ、状態ｓ、次状態ｓ’を読み込む。

ステップＳ１２０３において、行動最適化装置１は、環境拡張部２６の制御の下、環境再現モデルにおいて入力となる行動ａと状態ｓ（以降、合わせて「入力側」と言う）および出力となる次状態ｓ’（以降、「出力側」と言う）の関係を崩さない範囲で、乱数に基づくデータ拡張処理を行う。

ステップＳ１２０４において、行動最適化装置１は、環境拡張部２６の制御の下、データ拡張を施した［状態ｓ，次状態ｓ’，行動ａ］を処理結果として呼び出し元（ここでは環境再現部２７）に返却する。

なお、環境拡張部２６は、環境再現部２７からの要求に応じて起動することに限定されず、例えば環境予測部２５や環境再現部２７のように、一定時間ごとにまたはデータメモリ３０への保存を検出して起動し、データ拡張処理を行った拡張データを環境データとして環境データ記憶部３１に保存するようにしてもよい。この際、拡張フラグを環境データに付与し、フラグ値を参照して拡張データと非拡張データのどちらを使うかを切り替えるようにしてもよい。

一実施形態では、あらかじめ設定ファイルにより、適用する環境データ名称とデータ拡張手法を個別に設定しておき、該設定ファイルの内容に従ってデータ拡張を行うことができる。

また、例えば複数の空調を行動として指定していた場合、あらかじめ定義した各空調が受け持つ施設内の空間範囲（以下、「空調エリア」と言う）の位置とサイズからなるエリア情報のリストを設定ファイルに記述しておき、該設定ファイルをもとにエリアデータの各点のデータがどの空調エリアに属すかの判定によりデータを分割し、分割されたデータ単位でデータ拡張を行ってもよい。

以上により、例えば、入力側の温度データに対してノイズを乗せた場合は、温度データの実測値のゆれを許容するようなロバスト性の高い再現モデルの学習が可能となる。またエリア単位で共通のマスク処理を入力側と出力側の両方にかけた場合は、エリア間の相互作用を考慮した、または切り離した学習が可能となる。エリア１箇所だけが残るようなマスク処理がされた場合は、自エリアのみのデータを用いて各エリアの学習が進むことでエリア間の関係を切り離した予測が可能となり、例えば複数の空調の制御タイミングが一致したデータしか観測できなかった場合でも個別に空調を制御した場合の予測をすることができるようになる。またエリア複数箇所が残るようなマスク処理がされた場合は、自エリアだけでなく他エリアのデータも用いて各エリアの学習が進むことでエリア間の関係を考慮した予測が可能となり、例えば冷暖気の流入や熱溜まりが出やすいといったエリア特性を考慮することができるようになる。乱数によって上記が混在した学習が進むため、少ないデータ量で多様なバリエーションについての自然な予測が可能となる。

（８）環境再現モデルを用いた評価
図１４は、行動最適化装置１による、学習済みの環境再現モデルを用いて、指定時刻ｔの状態ｓで行動ａを実施したときの次状態ｓ’の予測（ここでは、「評価」とも言う）を行う処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置１は、環境再現部２７の制御の下、行動探索部２８からの評価指示を受けて評価処理を開始する（評価フェーズ）。

ステップＳ１３０１において、行動最適化装置１は、環境再現部２７の制御の下、行動探索部２８から評価指示とともに送信された情報を引数として受け、引数の中から、方針データ、時刻ｔ、期間ｔｒ、行動ａを取り出す。

ステップＳ１３０２において、行動最適化装置１は、環境再現部２７の制御の下、取り出した行動ａが空か否かを判定する。行動が空ではないと判定された場合、ステップＳ１３０３に移行する。一方、ステップＳ１３０２において、行動ａが空と判定された場合、ステップＳ１３０４に移行し、行動探索部２８からの上記評価指示を初期状態取得命令であると判定して、時刻ｔの状態ｓを次状態ｓ’とし、報酬ｒを０として、ステップＳ１３０８に移行する。

ステップＳ１３０３において、行動最適化装置１は、環境再現部２７の制御の下、取り出した方針データをもとに、学習済みの環境再現モデルと報酬関数Ｒを読み込む。

続いて、ステップＳ１３０５において、行動最適化装置１は、環境再現部２７の制御の下、時刻ｔの状態ｓを読み込むが、前回処理で予測した次状態ｓ’がメモリ上に残っていた場合はそちらを状態ｓとして利用する。

ステップＳ１３０６において、行動最適化装置１は、環境再現部２７の制御の下、環境再現モデルに状態ｓと行動ａを入力して、出力された予測状態ｆｓを次状態ｓ’とする。

ステップＳ１３０７において、行動最適化装置１は、環境再現部２７の制御の下、報酬関数Ｒに状態ｓ、次状態ｓ’、行動ａを入力して報酬ｒを取得する。

ステップＳ１３０８において、行動最適化装置１は、環境再現部２７の制御の下、処理の終了手続きとして、要求元（ここでは行動探索部２８）に次状態ｓ’と報酬ｒを出力する。

ステップＳ１３０９において、行動最適化装置１は、環境再現部２７の制御の下、次に時刻ｔ＋１の予測を行う場合に、時刻ｔの状態ｓとして実測値ではなく予測値を用いて処理を行うことができるよう、次状態ｓ’をメモリ上に保存する。ただし、時刻ｔが期間ｔｒを超えていた場合、時刻ｔ＋１の予測要求は行われないため保存しない。

なお、要求元に出力する次状態ｓ’について、行動ａの変更による影響を受けないフィールドｓ_ｉがあらかじめ分かっている場合は、あらかじめ設定ファイルに方針データ識別子と状態フィールドｓ_ｉのペアを記述し、該設定ファイルをもとに、該フィールドｓ_ｉを環境再現モデルで算出した値ではなく、データメモリ３０上に存在する時刻ｔの次状態ｓ’に含まれるｓ_ｉの値で上書きして返却してもよい。また学習フェーズにおいて、環境再現モデルの出力から該ｓ_ｉフィールドを削除した上で学習を行ってもよい。

（９）探索指示の取得
次に、ＧＵＩを介して入力される探索指示の取得について説明する。
図１５は、行動最適化装置１のＧＵＩ管理部２１によって提供される、行動探索に関する指示を入力するためのＧＵＩの一例として、図示しない表示部等に表示される探索指示の入力画面２２０を示す。ＧＵＩ管理部２１は、このような探索指示入力画面２２０を介して、キーボード、マウス、タッチパネル等の入力デバイス（図示せず）を用いてユーザまたはオペレータが入力した探索指示を取り込むことができる。探索指示入力画面２２０は、開始時刻、終了時刻、方針データ、送信先を入力するテキストボックス２２１〜２２４と、種別を入力するラジオボタン２２５と、入力を終了する送信ボタン２２６を有するが、これに限定されるものではない。

開始時刻欄２２１と終了時刻欄２２２は、どの期間のデータを用いるかを入力する欄である。

方針データ欄２２３は、方針管理部が出力した方針データの識別子を入力する欄である。

種別欄２２５は、行動探索部２８に対し、学習指示と評価指示のどちらを送信するかを選択する欄である。

送信先欄２２４は、種別欄２２５が評価指示になっているときに追加で入力が必要となり、評価フェーズにより出力された探索結果を送信する先を入力する欄である。本実施例においては、施設管理システムＭＳがＨＴＴＰ通信で探索結果を受け付けるＡＰＩを備えており、該ＡＰＩのＵＲＬを入力することを想定しているが、これに限らず、例えば特定プロトコルによる通信方法を記述してもよい。

送信ボタン２２６が押され入力が完了すると、ＧＵＩ管理部２１は上記の内容を行動探索部２８へ出力する。この際、学習フェーズと評価フェーズのどちらかが種別欄２２５の入力値に応じて自動的に選ばれる。

（１０）探索モデルの学習
図１６は、行動最適化装置１による行動探索に使用される探索モデルを学習する処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置１は、行動探索部２８の制御の下、ＧＵＩ管理部２１からの学習指示を受けて探索モデルの学習を開始する（学習フェーズ）。学習フェーズにおいて、行動探索部２８は、探索モデル学習部として機能し、ＧＵＩ管理部２１から送信された情報を引数として取得し、指定期間のデータを用いて、各時刻ｔにおける状態ｓに対し最適な次状態ｓ’へ遷移する行動ａの予測を行う探索モデルの学習を行う。

ステップＳ１５０１において、行動最適化装置１は、行動探索部２８の制御の下、引数の中から、方針データ、開始時刻、終了時刻を取り出す。

ステップＳ１５０２において、行動最適化装置１は、行動探索部２８の制御の下、取り出した方針データの探索手法フィールド記載内容に対応する探索モデルを読み込む。

ステップＳ１５０３において、行動最適化装置１は、行動探索部２８の制御の下、さらに、開始時刻と終了時刻の間のいずれかの日をランダムに選択し、その日の００：００を時刻ｔとする。

ステップＳ１５０４において、行動最適化装置１は、行動探索部２８の制御の下、時刻ｔおよび空の行動ａと開始時刻と終了時刻からなる期間ｔｒを環境再現部２７に出力して、初期状態ｓを取得する。なお、時刻は００：００でなくてもよく、例えば夜間の最適化が不要な場合は施設の営業開始時（０９：００など）を指定してもよい。

ステップＳ１５０５において、行動最適化装置１は、行動探索部２８の制御の下、探索モデルに状態ｓを入力し、次にすべき行動ａを取得する。行動ａを取得する際、複数ある候補の中から探索モデルが選択した最良候補を選出するだけでなく、未知の探索を進めるべく一定の確率でランダムな候補を選出してもよい。

続いて、ステップＳ１５０６において、行動最適化装置１は、行動探索部２８の制御の下、環境再現部２７に時刻ｔ、行動ａ、期間ｔｒを出力し、次状態ｓ’、報酬ｒを取得する。

ステップＳ１５０７において、行動最適化装置１は、行動探索部２８の制御の下、時刻ｔ、状態ｓ、次状態ｓ’、報酬ｒ、行動ａからなる結果を用いて、誤差逆伝搬法といった公知技術を用いて探索モデルの各パラメータを更新する（例えば、Ｃ．Ｍ．ビショップ著，元田浩他監訳，「パターン認識と機械学習上」，丸善出版株式会社，平成２８年７月３０日第７刷発行，参照）。なお、パラメータを都度更新するのではなく、一時的に該結果をメモリ上に保存することで、複数の結果を用いてパラメータ更新をバッチ処理的に行ったり、連続する時刻ｔ₁とｔ₂の結果を用いて、先読報酬ｒ’＝ｒ₁＋ｒ₂を求め、時刻ｔ₁、状態ｓ₁、次状態ｓ₂’、報酬ｒ’としてパラメータ更新を行ったりしてもよい。

ステップＳ１５０８において、行動最適化装置１は、行動探索部２８の制御の下、時刻ｔが終了時刻を超えたかどうかを判定する。時刻ｔが終了時刻を超えていないと判定された場合、ステップＳ１５０９に移行し、時刻ｔを１つ進め、次状態ｓ’を状態ｓに代入した上で、ステップＳ１５０５〜ステップＳ１５０７の処理を繰り返す。

一方、ステップＳ１５０８において、時刻ｔが終了時刻を超えたと判定された場合、ステップＳ１５１０に移行する。

ステップＳ１５１０において、行動最適化装置１は、行動探索部２８の制御の下、パラメータ更新差分があらかじめ定められた閾値以下であるか否かを判定する。ステップＳ１５１０においてパラメータ更新差分が閾値以下でないと判定された場合、学習余地がまだあるものとして、ステップＳ１５０３に移行し、別の日のデータをもとに学習を繰り返す。ステップＳ１５１０においてパラメータ更新差分が閾値以下であると判定された場合、ステップＳ１５１１に移行する。

ステップＳ１５１１において、行動最適化装置１は、行動探索部２８の制御の下、パラメータ更新をした探索モデルをモデルデータとしてモデルデータ記憶部３３に保存し、処理を終了する。

このように、行動最適化装置１は、行動探索部２８の制御の下、学習フェーズにおいて環境再現部２７とやり取りをしながら探索モデルの学習を行う。

（１１）探索モデルを用いた評価
図１７は、行動最適化装置１による、学習済みの探索モデルを用いて、行動探索を行う処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置１は、行動探索部２８の制御の下、ＧＵＩ管理部２１によって出力された評価指示を受けて評価処理を開始する（評価フェーズ）。例えば、行動探索部２８が１日ごとに評価処理を行い、その後１日分の探索結果を生成するように構成することができる。

評価フェーズでは、基本的には学習フェーズと同様の手順で処理が行われるが、開始時刻から終了時刻まで連続的に時刻ｔを進めながら状態ｓに対し最適な次状態ｓ’へ遷移する行動ａを評価する点と、探索モデルの更新を行わない点と、処理終了前に取得した行動ａのリストを探索結果として保存する点と、が異なる。なお、探索結果は、生成する際に用いた方針データの識別子等のメタデータも含むことができる。

ステップＳ１６０１において、行動最適化装置１は、行動探索部２８の制御の下、引数の中から、方針データ、開始時刻、終了時刻、送信先を取り出す。

ステップＳ１６０２において、行動最適化装置１は、行動探索部２８の制御の下、取り出した方針データの探索手法フィールド記載内容に対応する、学習済みの探索モデルを読み込む。

ステップＳ１６０３において、行動最適化装置１は、行動探索部２８の制御の下、さらに、開始時刻を時刻ｔとする。

ステップＳ１６０４において、行動最適化装置１は、行動探索部２８の制御の下、時刻ｔおよび空の行動ａと開始時刻と終了時刻からなる期間ｔｒを環境再現部２７に出力して、初期状態ｓを取得する。

ステップＳ１６０５において、行動最適化装置１は、行動探索部２８の制御の下、探索モデルに状態ｓを入力し、次にすべき行動ａを取得する。

ステップＳ１６０６において、行動最適化装置１は、行動探索部２８の制御の下、その後、環境再現部２７に時刻ｔ、行動ａ、期間ｔｒを出力し、次状態ｓ’、報酬ｒを取得する。

ステップＳ１６０７において、行動最適化装置１は、行動探索部２８の制御の下、時刻ｔが終了時刻を超えたかどうかを判定する。時刻ｔが終了時刻を超えていないと判定された場合、ステップＳ１６０８に移行し、時刻ｔを１つ進め、次状態ｓ’を状態ｓに代入した上で、ステップＳ１６０５〜ステップＳ１６０６の処理を繰り返す。一方、ステップＳ１６０７において、時刻ｔが終了時刻を超えたと判定された場合、ステップＳ１６０９に移行する。

ステップＳ１６０９において、行動最適化装置１は、行動探索部２８の制御の下、取得した行動ａのリストを探索結果として探索結果記憶部３４に保存する。

ステップＳ１６１０において、行動最適化装置１は、行動探索部２８の制御の下、送信制御部２９に、引数から取り出した送信先とともに、探索結果、または探索結果を送信すべき旨の通知を出力する。

このように、行動探索部２８は、評価フェーズにおいても、環境再現部２７とやり取りをしながら探索処理を行う。

なお、行動探索部２８の学習フェーズおよび評価フェーズについて、ＧＵＩ管理部２１からの情報による起動に限らず、例えば一定時間ごとにまたはデータメモリ３０への保存といったイベントを行動探索部２８自身が検出して対応する処理を行うように構成してもよい。その際、方針データ、開始時刻、終了時刻、送信先といった必要なパラメータ、起動フェーズ、該イベントのセットを設定ファイルに記述しておくことができる。

（１２）探索結果の出力
図１８は、行動最適化装置１が施設管理システムＭＳに対して探索結果を送信する処理手順と処理内容の一例を示すフローチャートである。一実施形態では、行動最適化装置１は、送信制御部２９の制御の下、この処理を実行する。

ステップＳ１７０１において、行動最適化装置１は、送信制御部２９の制御の下、行動探索部２８の評価フェーズから出力された情報を引数として、引数から、送信先および探索結果を取り出す。

ステップＳ１７０２において、行動最適化装置１は、送信制御部２９の制御の下、指定された送信先に対して探索結果を送信する処理を行う。

ただし、探索結果の出力はこの手順に限定されず、施設管理システムＭＳからの探索結果取得要求に応じる形で起動したり、ＧＵＩ管理部２１に当該命令送信画面を新たに設け、該画面を経由したユーザ指示により起動したりするようにしてもよい。

図１９は、出力される探索結果の一例を示す図である。探索結果は、制御を変化させるタイミングを表す「時刻」と、いくつかある制御についてそれぞれどのように変化させるかを表す「行動」と、のフィールドからなる。ただし、探索結果の各フィールド項はこれらに限定されるものではなく、例えば、変化タイミングだけを要約するのではなく全時刻を出力したり、制御の数だけ識別子に対応する名称を持ったフィールドを増減したりしてもよい。

なお、上記のように、この実施形態では、ある時刻において、実測値に基づいて予測された予測値のみが取得可能な場合は予測値を、予測値と実測値の両方が取得可能な場合は実測値を用いることとしているが、予測値が使われるケースとしては、例えば、以下が挙げられる。
・行動探索部２８が、評価フェーズにおいて、未来期間の行動最適化を行う場合（例えば、その時点から１日分の探索結果を算出する場合）。
・環境再現部２７が、評価フェーズにおいて、自身が予測するよりも既存の予測値の方が精度が高いことがわかっている場合（例えば、予測外気温を気象庁から取得していた場合）なお後者の場合、環境再現モデルの出力側の外気温は使われないことになるので、環境再現部２７において、設定ファイルを通して環境再現モデルの出力から外気温データを削除した上で学習フェーズと評価フェーズのそれぞれが実行される。

（実施例２）
図２０は、この発明の一実施形態に係る行動最適化装置１を含むシステムの全体構成の第２の例を示す図である。この例では、行動最適化装置１は、対象空間内の環境を制御するための行動として、対象領域内の汚れ状況をゴミセンサを用いて検出し、対象領域内の清掃を最適化することが想定されている。図１に示したシステムと比較して、センサシステムＳＳが、センサＳｓ１，．．．，Ｓｓｎに加えて、追加のセンサとして、掃除機（または掃除機が備えるセンサ）Ｓｍ１、空気清浄機（または空気清浄機が備えるセンサ）Ｓｍ２、カメラＳｍ３を備えている。これら追加のセンサにより、例えば、掃除機が吸い込んだゴミの量を赤外線センサで測定したデータ、空気清浄機のほこりセンサの値、カメラの画像から汚れ部分を検出したデータなど、汚れを表す情報を含む環境データが取得される。

図２１は、実施例２のシステムにおいて行動最適化装置１のＧＵＩ管理部２１が提供し得るＧＵＩの一例として清掃最適化の方針入力画面２５０を示す図である。方針入力画面２５０は、状態、行動、報酬関数、再現手法、探索手法を入力するテキストボックス２５１〜２５５と、入力を終了する送信ボタン２５６とを有するが、これに限定されるものではない。

方針入力画面２５０は、図９に示した方針入力画面２１０と比較して、入力内容が変化しており、それぞれ、行動欄２５２では掃除状態（つまり当該時間に掃除を行う）を制御として入力し、状態欄２５１では汚れと人流を入力し、報酬関数欄２５５では学習１サイクルが終了した場合は１日の総汚れ除去量を、それ以外は掃除を実施した場合に人流量に応じて＋１または−１を（掃除を行わない場合は０）それぞれ返すような入力を例示している。また、再現手法欄２５３では再現モデルとして重回帰を、探索手法欄２５４では探索モデルとして動的計画法をそれぞれ利用するような入力を例示している。ただし入力はこれに限らず、例えば、行動欄２５２にどの程度重点的に掃除を行うべきかを表す掃除強度を指定したり、状態欄２５１に床の材質を追加したり、報酬欄２５５に掃除に要する時間を最小化するような項目を追加したりしてもよい。

その他、実施例２に係るシステムにおいて、行動最適化装置１が備える構成および各々の動作は、実施例１と同様であるので、詳細な説明は省略する。

（効果）
以上詳述したように、この発明の一実施形態では、行動最適化装置１が、センサシステムＳＳまたは施設管理システムＭＳから制御対象である空間に関する環境データを取得し、取得された環境データに対して時空間補間を行う。この時空間補間された環境データに基づいて、環境再現部２７により、環境の状態と当該環境を制御するための行動を入力したときに、その行動後の環境の状態の正解値が出力されるように、環境再現モデルを学習させ、学習済みの環境再現モデルに基づいて、環境の変化（時刻ｔの状態ｓにおいて行動ａを実施したときの次状態ｓ’）の予測が行われる。また一方、行動探索部２８により、環境再現部２７とやり取りしながら、各時刻ｔにおける状態ｓに対し最適な次状態ｓ’へ遷移する行動ａの予測を行う探索モデルの学習が行われ、やはり環境再現部２７とやり取りしながら、学習済み探索モデルに基づいて、各状態についてとるべき適切な行動のリストが取得され、出力される。

したがって、一実施形態によれば、実際に取得された環境データに基づいて未来の環境データの変化を事前に予測したうえで、環境再現部２７および行動探索部２８により学習および評価を行っているので、信頼性の高いフィードフォワード制御による、とるべき行動の最適化を実現することができる。これにより、オフィスビルなどの建物や施設の管理において、空調や清掃等の任意の管理対象について適切な制御スケジュールが得られ、空間内の環境の変化に適時的に対応した、効率的な管理運用が可能となる。

また、取得された環境データに対し、環境データ補間部２４により時空間補間を行うようにしているので、局所的な環境条件の変化も考慮に入れた、対象空間全体としての制御効果をふまえた学習および評価を行うことができる。これにより、熱溜まりなどの環境条件の不均一性に起因する問題が解消される。また、隣接空間からの影響も考慮されるので、対象空間内に存在する相互作用までも考慮した、より高精度の行動探索を実現することができる。

さらに、環境予測部２５を設けて、取得された環境データから未来予測を行い、環境予測データを得られるようにしている。これにより、外部装置等から予測値（例えば予測人流、予測天気）を取得できない環境においても、環境予測データを用いて行動探索をはじめとする各処理を実施することができる。

ＧＵＩ管理部２１により、行動最適化の方針や、学習フェーズの起動タイミング、評価フェーズの起動タイミングおよび対象期間などを容易に設定できるので、ビルや設備の状況に応じたフレキシブルな制御を行うことができる。また、方針管理部２２により、ＧＵＩを介して入力された種々の指示が方針データとして管理され、指定されたパラメータ（再現手法、環境再現モデル、報酬関数等）とモデルデータとの関係が適切に整理される。

さらに、環境拡張部２６により、見かけ上のデータを増やすことができるので、環境再現部２７または行動探索部２８が学習を開始する前に十分な量の環境データを取得するために要する時間を短縮することができる。また、乱数を用いたデータ拡張により、予測処理のロバスト性が向上するので、拡張処理を施された環境データの信頼性を高めることができる。

さらに、行動最適化装置１の探索処理における制御対象として、空調のＯＮ／ＯＦＦといった切替制御に加えて、設定温度などの詳細な設定や、複数の空調それぞれの運転状況など、多様な対象を設定することができ、目的や環境に応じたフレキシブルな制御を実現することができる。また、制御対象をあらかじめグループ化することによって得られる制御対象グループに対するグループ単位での行動を、探索処理の対象とすることもできる。これにより、例えば、利用者が多い区画と少ない区画、利用者の移動量が多い区画と少ない区画、外気や日射の影響を受けやすい区画と受けにくい区画、厨房等の熱源を備える区画と備えない区画、イベントが開催される区画とされない区画、飲食物が提供される区画とされない区画など、任意の基準に基づくグループ分けにより、実際の環境を考慮した適確な制御を行うことができる。またさらに、所定の機能を果たすための一連の操作を含む仮想行動を探索処理の対象とすることもできる。このように、例えば空調機器における「起動準備」や「除湿モード」など、製造時にあらかじめ設定された手続きや動作モードがある場合に、そのような一連の操作をまとめて仮想行動として扱うことで、より効率的な制御を行うことができる。

またさらに、報酬関数において、一般的に知られる省エネルギーに繋がる操作を高く評価することもできる。これにより、省エネルギーに繋がる操作を積極的に活用した、適確な行動の探索および制御を行うことができる。

［他の実施形態］
なお、この発明は上記実施形態に限定されるものではない。例えば、一実施形態では、環境データの実測値を取得し、時空間補間を行って、種々の処理に用いるものとして説明したが、必要に応じて、過去に得られた予測値を環境データの一部として用いてもよい。これにより、センサの故障や通信エラーにより一定期間データが得られなかった場合でも、適宜データを補充して処理に用いることができる。また、データの補間や予測には、以上で説明した技法に限定されることなく、様々な技法を用いることができる。

上記実施形態では、ＧＵＩ管理部２１により指示入力用のＧＵＩを提供するものとして記載したが、これらは必須の構成ではなく、他の任意の形式で方針データを取得してもよい。例えば、データメモリ３０に初期設定を示すデータセットをあらかじめ格納しておき、このデータセットを方針データとして読み出すようにしてもよい。あるいは、ＣＵＩ（Character User Interface）を採用し、ユーザがキーボード入力により指示を入力するようにしてもよい。

また上記のように、環境再現部２７または行動探索部２８による学習は、任意のタイミングで開始されてよく、状況や制御対象に応じてユーザ等が随時タイミングを変更できるようにしてもよい。

上記実施形態では、行動探索部２８が、与えられた環境の状態に対して最適な次状態へ遷移する行動を探索するものとして説明したが、必ずしもこれに限定されるものではない。例えば、行動探索部２８による探索結果として必ずしも最適な行動だけが出力されることを要求するものではなく、次善の行動、または一時的もしくは一面的に見れば最適ではないと評価され得る行動が含まれてもよい。行動探索部２８は、学習または評価に際し、多様な環境の状態に対して、多様な行動を出力し得る。また、行動探索部２８は、学習または評価に際し、最適条件の探索または最適探索として知られている多種多様な技法を採用することができる。

その他、実測値の種類や方針データの内容等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。

要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

（付記）
上記各実施形態の一部または全部は、特許請求の範囲のほか以下の付記に示すように記載することも可能であるが、これに限られない。
［Ｃ１］
対象空間内の環境を制御するための行動を最適化する、行動最適化装置であって、
前記対象空間内の環境の状態に関する環境データを取得する環境データ取得部と、
前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行う環境データ補間部と、
前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させる環境再現モデル学習部と、
前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させる探索モデル学習部と、
前記環境再現モデルを使用して、第１の環境の状態および第１の行動に対応する第２の環境の状態を予測する環境再現部と、
前記探索モデルを使用して、前記第２の環境の状態に対して取るべき第２の行動を探索する行動探索部と、
前記行動探索部による探索の結果を出力する出力部と
を具備する、行動最適化装置。
［Ｃ２］
前記行動探索部は、探索された前記第２の行動を、前記環境再現部に対して出力し、
前記環境再現部は、前記環境再現モデルを使用して、前記第２の環境の状態と前記行動探索部から出力された前記第２の行動とに対応する第３の環境の状態をさらに予測し、
前記行動探索部は、前記探索モデルを使用して、前記第３の環境の状態に対して取るべき第３の行動をさらに探索する、上記Ｃ１に記載の行動最適化装置。
［Ｃ３］
前記環境再現部は、あらかじめ設定された報酬関数に基づいて、前記第２の環境の状態に対応する報酬をさらに出力し、
前記探索モデル学習部は、前記環境再現部から出力される報酬に基づいて前記探索モデルの学習結果を更新する、上記Ｃ１に記載の行動最適化装置。
［Ｃ４］
前記環境データに基づいて、あらかじめ設定された時系列分析方法を用いて未来予測を行い、環境予測データを生成する、環境予測部をさらに備え、
前記行動探索部は、前記探索モデルに対して前記環境予測データを使用して、取るべき行動を探索する、上記Ｃ１に記載の行動最適化装置。
［Ｃ５］
前記環境データに対して乱数に基づくデータ拡張を行う、環境拡張部をさらに備え、
前記環境再現モデル学習部は、前記データ拡張を施された環境データを用いて前記環境再現モデルを学習させる、上記Ｃ１に記載の行動最適化装置。
［Ｃ６］
前記環境再現モデル学習部、前記探索モデル学習部、前記環境再現部または前記行動探索部が処理に用いるべき情報を指定する方針データを取得する、方針データ取得部をさらに備える、上記Ｃ１に記載の行動最適化装置。
［Ｃ７］
前記行動探索部は、前記第２の行動として、複数の制御対象を所定の基準に基づいてあらかじめグループ化して得られる制御対象グループに対するグループ単位の行動、または所定の機能を実現するための１もしくは複数の制御対象に対する一連の行動を探索する、上記Ｃ１に記載の行動最適化装置。
［Ｃ８］
対象空間内の環境を制御するための行動を最適化する行動最適化装置が実行する、行動最適化方法であって、
前記対象空間内の環境の状態に関する環境データを取得する過程と、
前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行う過程と、
前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させる過程と、
前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させる過程と、
前記環境再現モデルを使用して、第１の環境の状態および第１の行動に対応する第２の環境の状態を予測する過程と、
前記探索モデルを使用して、前記第２の環境の状態に対して取るべき第２の行動を探索する過程と、
探索の結果を出力する過程と
を具備する、行動最適化方法。
［Ｃ９］
上記Ｃ１乃至Ｃ７の何れかに記載の装置の各部による処理をプロセッサに実行させるプログラム。

１…行動最適化装置
１０…入出力インタフェースユニット
２０…制御処理ユニット
２０Ａ…ハードウェアプロセッサ
２０Ｂ…プログラムメモリ
２１…ＧＵＩ管理部
２２…方針管理部
２３…環境データ取得部
２４…環境データ補間部
２５…環境予測部
２６…環境拡張部
２７…環境再現部
２８…行動探索部
２９…送信制御部
３０…データメモリ
３１…環境データ記憶部
３２…方針データ記憶部
３３…モデルデータ記憶部
３４…探索結果記憶部
２１０…方針入力画面
２２０…探索指示入力画面
２５０…方針入力画面

Claims

プロセッサと、当該プロセッサに接続されたメモリとを備える、対象空間内の環境を制御するための行動を最適化する行動最適化装置であって、
前記プロセッサが、
前記対象空間内の環境の状態に関する環境データを取得し、
前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行い、
前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させ、学習済みの環境再現モデルを前記メモリに記憶させ、
前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させ、学習済みの探索モデルを前記メモリに記憶させ、
前記メモリに記憶された前記学習済みの環境再現モデルを読み出し、読み出した前記学習済みの環境再現モデルを使用して、第１の環境の状態および第１の行動に対応する第２の環境の状態を予測し、
前記メモリに記憶された前記学習済みの探索モデルを読み出し、読み出した前記学習済みの探索モデルを使用して、前記第２の環境の状態に対して取るべき第２の行動を探索し、
前記探索の結果を出力する
ように構成された、行動最適化装置。
前記プロセッサがさらに、
探索された前記第２の行動をもとに、前記学習済みの環境再現モデルを使用して、前記第２の環境の状態と前記第２の行動とに対応する第３の環境の状態をさらに予測し、
前記学習済みの探索モデルを使用して、前記第３の環境の状態に対して取るべき第３の行動をさらに探索する
ように構成された、請求項１に記載の行動最適化装置。
前記プロセッサがさらに、
前記学習済みの環境再現モデルを使用して第１の環境の状態および第１の行動に対応する第２の環境の状態を予測する際に、あらかじめ設定された報酬関数に基づいて前記第２の環境の状態に対応する報酬をさらに出力し、
前記学習済みの探索モデルを使用して前記第２の環境の状態に対して取るべき第２の行動を探索する際に、前記報酬に基づいて前記探索モデルの学習結果を更新する
ように構成された、請求項１に記載の行動最適化装置。
前記プロセッサがさらに、
前記環境データに基づいて、あらかじめ設定された時系列分析方法を用いて未来予測を行い、環境予測データを生成し、
前記探索モデルに対して前記環境予測データを使用して、取るべき行動を探索する
ように構成された、請求項１に記載の行動最適化装置。
前記プロセッサがさらに、
前記環境データに対して乱数に基づくデータ拡張を行い、
前記データ拡張を施された環境データを用いて前記環境再現モデルを学習させる
ように構成された、請求項１に記載の行動最適化装置。
前記プロセッサがさらに、
前記環境再現モデルの学習、前記探索モデルの学習、前記第２の環境の状態の予測、および前記第２の行動の探索のうちの少なくとも１つの処理に用いるべき情報を指定する方針データを取得する
ように構成された、請求項１に記載の行動最適化装置。
前記プロセッサがさらに、
前記第２の行動として、複数の制御対象を所定の基準に基づいてあらかじめグループ化して得られる制御対象グループに対するグループ単位の行動、または所定の機能を実現するための１もしくは複数の制御対象に対する一連の行動を探索する
ように構成された、請求項１に記載の行動最適化装置。
プロセッサと当該プロセッサに接続されたメモリとを備える行動最適化装置が、対象空間内の環境を制御するための行動を最適化する、行動最適化方法であって、
前記対象空間内の環境の状態に関する環境データを取得することと、
前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行うことと、
前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させ、学習済みの環境再現モデルを前記メモリに記憶させることと、
前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させ、学習済みの探索モデルを前記メモリに記憶させることと、
前記メモリに記憶された前記学習済みの環境再現モデルを読み出し、読み出した前記学習済みの環境再現モデルを使用して、第１の環境の状態および第１の行動に対応する第２の環境の状態を予測することと、
前記メモリに記憶された前記学習済みの探索モデルを読み出し、読み出した前記学習済みの探索モデルを使用して、前記第２の環境の状態に対して取るべき第２の行動を探索することと、
探索の結果を出力することと
を具備する、行動最適化方法。
対象空間内の環境を制御する行動を最適化するためのプログラムを記憶した非一時的な有形のコンピュータ可読記憶媒体であって、前記プログラムは、
前記対象空間内の環境の状態に関する環境データを取得することと、
前記取得された環境データに対してあらかじめ設定されたアルゴリズムに従い時空間補間を行うことと、
前記時空間補間された環境データに基づいて、環境の状態と当該環境を制御するための行動を入力したときに、前記行動の後の環境の状態の正解値が出力されるように、環境再現モデルを学習させることと、
前記環境再現モデルから出力される環境の状態を入力したときに次に取るべき行動が出力されるように探索モデルを学習させることと、
前記環境再現モデルを使用して、第１の環境の状態および第１の行動に対応する第２の環境の状態を予測することと、
前記探索モデルを使用して、前記第２の環境の状態に対して取るべき第２の行動を探索することと、
探索の結果を出力することと
をプロセッサに実行させるための命令を備える、コンピュータ可読記憶媒体。